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前 言 


PREFACE 


个 性 化 推荐 与 信息 检索 技术 的 目标 一 致 ,也 是 一 种 帮助 用 户 更 快速 地 发 现 有 
用 信息 的 工具 ,但 与 信息 检索 技术 不 同 的 是 ,个 性 化 推荐 能 够 根据 用 户 的 历史 行为 
显 式 或 者 隐 式 地 挖掘 用 户 潜在 的 兴趣 和 需求 ,为 其 推送 感 兴趣 并 且 个 性 化 的 信息 ， 
已 越 来 越 受 到 研究 者 的 追捧 及 工业 界 的 青睐 ,其 研究 具有 重大 的 学 术 价值 及 商业 
应 用 价值 。 如 今 基 于 个 性 化 推荐 算法 的 推荐 系统 已 广泛 应 用 于 大 型 电子 商务 平台 
(如 天 猫 、 京 东 和 亚马逊 等 )、 社 交 平台 (如 新 浪 微 博 、Facebook 和 Twitter 等 ) 新闻 
客户 端 ( 今 日 头条 、 天 天 快报 等 ) 以 及 其 他 各 类 旅游 和 娱乐 类 网 站 (如 携程 网 .电影 
音乐 社区 等 ) 中 ,在 提高 用 户 满意 度 和 忠诚 度 的 同时 也 为 自身 带 来 了 可 观 的 经 济 
效益 。 

协同 过 滤 推 荐 算法 是 个 性 化 推荐 中 运用 最 早 和 最 成 功 的 一 种 推荐 技术 , 它 的 
任务 是 利用 用 户 与 项 目 评分 矩阵 中 的 已 知 元 素来 预测 未 知 元 素 的 评分 值 并 将 预测 
评分 高 的 项 目 推荐 给 用 户 。 协 同 过 滤 的 最 大 优点 是 对 推荐 对 象 没 有 特殊 的 要 求 ， 
能 处 理 非 结 构 化 的 复杂 对 象 (如 音乐 .图 书 .电影 和 资讯 类 新 闻 内 容 等 ,这 类 产品 是 
难以 进行 机 器 自动 内 容 分 析 的 信息 ) ,避免 了 内 容 分 析 的 不 完全 和 不 精确 ,而 且 能 
够 根据 用 户 的 历史 行为 推荐 个 性 化 的 信息 。 传 统 的 基于 邻 域 模型 的 推荐 算法 分 为 
数据 收集 (输入 ) 获得 最 近邻 集合 (主要 是 计算 相似 度 ) 和 预测 并 推荐 (输出 ) 等 步 
又 。 目 前 协同 过 滤 推 荐 算法 还 存在 数据 的 高 维 稀 玻 性 、 冷 启动 和 大 数据 环境 下 扩 
展 性 等 制约 其 进一步 发 展 的 瓶颈 问题 ,如 何 解 决 以 上 问题 进而 提高 推荐 系统 的 推 
荐 质量 成 为 个 性 化 推荐 的 关键 ,近年 来 基于 协同 过 滤 的 推荐 算法 及 其 相关 改进 模 
型 得 到 了 学 者 们 的 广泛 关注 和 研究 。 

本 书 作者 一 直 从 事 推 荐 系统 理论 及 其 应 用 的 研究 工作 ,提出 了 一 系列 改进 推 
荐 质量 的 方法 ,并 成 功 应 用 于 多 种 复杂 的 实际 问题 。 作 者 的 这 些 工作 大 大 丰富 了 
推荐 系统 理论 ,尤其 是 所 关注 的 协同 过 滤 推 荐 算法 对 其 在 其 他 领域 的 进一步 研究 
与 应 用 黄 定 了 技术 基础 ,具有 重要 的 理论 意义 和 实际 应 用 价值 。 

本 书 由 河南 理工 大 学 计算 机 科学 与 技术 学 院 王 建 芳 独立 完成 ,是 作者 在 本 领 
域 所 发 表 学 术 论 文 的 基础 上 进一步 加 工 、 深 化 而 成 的 ,是 对 已 有 研究 成 果 的 全 面 总 
结 。 全 书 共 分 5 篇 14 章 。 第 一 篇 包括 第 1 章 , 讨 论 了 推荐 算法 的 分 类 ,各 类 算法 
的 基本 思想 和 改进 策略 ,阐述 推荐 算法 存在 的 问题 实验 方法 和 评测 指标 。 第 二 篇 
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包括 第 2 章 和 第 3 章 , 主 题 是 围绕 基于 时 序 的 协同 过 滤 推荐 算法 展开 研究 fed 
荐 系统 中 随 着 时 间 的 推移 ,用 户 的 关注 点 在 不 断 变 化 ,如 何 捕获 这 一 动态 的 时 间 效 
应 是 个 难题 。 本 篇 针对 基于 时 序 的 协同 过 滤 推 荐 算法 展开 研究 。 第 三 篇 包括 
第 A—11 章 , 主 题 是 围绕 基于 矩阵 分 解 的 协同 过 滤 推荐 算法 展开 研究 。 和 矩阵 分 解 
模型 能 够 基于 用 户 的 行为 对 用 户 和 项 目 进行 自动 分 析 , 也 就 是 把 用 户 和 项 目 划分 
到 不 同 主题 ,这 些 主题 可 以 理解 为 用 户 的 兴趣 和 项 目 属性 。 本 篇 针对 SVD、 概 率 
和 矩阵 分 解 . 非 负 和 矩阵 分 解 及 其 与 相关 算法 的 整合 分 别提 出 相关 的 理论 。 第 四 篇 包 
括 第 12 章 和 第 13 章 ,主题 是 围绕 协同 过 滤 推 荐 算法 与 社交 网 络 的 信任 展开 研究 ， 
将 用 户 的 评分 信息 和 用 户 的 社交 网 络 信息 融入 传统 的 矩阵 分 解 中 以 提高 推荐 质 
量 。 第 五 篇 包括 第 14 章 , 从 实际 应 用 的 角度 用 Spark 实现 一 个 基于 矩阵 分 解 的 推 
荐 原型 系统 。 

在 本 书 的 撰写 过 程 中 ,已 毕业 的 硕士 研究 生 张 朋 飞 、. 李 戏 、 武 文 琪 以 及 在 读 研 
究 生 谷 振 鹏 、. 刘 冉 东 ` 苗 艳 玲 等 对 书稿 内 容 和 相关 实验 提供 了 大 量 的 帮助 ,在 此 向 
他 们 表示 衷心 的 感谢 。 本 书 的 出 版 得 到 河南 省 高 等 学 校 重 点 科研 项 目 (项 目 编号 : 
15A520074) 和 河南 理工 大 学 博士 基金 的 支持 ,在 此 一 并 表示 感谢 。 

推荐 系统 所 涉及 的 算法 ,尤其 是 协同 过 滤 推 荐 算法 是 一 个 快速 发 展 、 多 学 科 交 
又 的 新 颖 研究 方法 ,其 理论 及 应 用 均 有 大 量 的 问题 尚 待 进一步 深入 研究 。 由 于 作 
者 知识 水 平和 资料 获取 方面 的 限制 , 书 中 不 妥 之 处 在 所 难免 , 敬 请 同行 专家 和 读者 
批评 指正 。 


作 者 
2018 年 5 月 
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第 一 篇 基础 理论 


推荐 系统 的 传统 定义 可 以 理解 为 “采集 用 户 历史 行为 信息 ,结合 具 
体 推 荐 模型 帮助 用 户 选择 商品 或 提供 建议 的 过 程 ”。 现 阶段 完整 的 个 性 
化 推荐 模型 主要 由 数据 收集 及 预 处理 、 推 荐 算法 和 产生 推荐 三 部 分 
组 成 。 

数据 收集 包括 收集 用 户 必 性、 项 目 属性 和 用 户 对 项 目的 行为 信息 
等 。 收 集 到 的 数据 中 ,有 些 数据 无 法 直接 使 用 或 推荐 效果 很 差 。 为 了 后 
续 更 好 地 为 用 户 提供 推荐 服务 ,需要 提前 对 数据 进行 预 处 理 一 一 清理 和 
BR 

产生 推荐 是 通过 推荐 算法 计算 得 到 目标 用 户 的 最 近邻 集合 ,将 最 近 
邻 评价 过 的 项 目 推荐 给 目标 用 户 ; 利用 模型 对 未 知 项 目 进行 预测 ,将 预 
测评 分 最 高 的 项 目 推送 给 目标 用 户 。 

推荐 算法 作为 个 性 化 推荐 系统 中 的 核心 ,将 收集 并 处 理 好 的 数据 通 
过 推荐 算法 为 用 户 产 生 推 荐 。 推 荐 算法 的 优 劣 与 个 性 化 推荐 系统 的 推 
荐 质量 有 着 直接 关系 。 
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信息 技术 的 迅猛 发 展 使 人 类 社会 由 信息 匮乏 时 代 进 入 信息 过 载 时 代 e rfi fri 
过 载 为 用 户 在 选择 最 中 意 的 产品 时 带 来 沉重 的 处 理 负 担 。 以 电子 商务 网 站 为 例 ， 
用 户 往往 关于 潜在 需求 而 无 法 用 关键 字 表达 或 者 搜索 关键 字 表达 不 准确 ,从 而 不 
得 不 从 浩如烟海 的 信息 海洋 获取 真正 需求 的 信息 。 

针对 上 述 问题 ,为 满足 用 户 和 企业 的 共同 需求 ,满足 不 同 用户 偏 好 的 推荐 系统 
应 运 而 生 。 此 外 ,社会 经 济 的 快速 发 展 带 来 种 类 繁多 的 产品 类 型 ,使 得 用 户 的 购买 
目的 更 多 地 体现 出 固有 的 个 体 特性 ,在 满足 物质 需求 的 基础 上 ,推荐 系统 根据 用 
户 的 历史 行为 ,例如 点 击 . 购 买 和 收藏 等 去 挖掘 用 户 的 偏好 信息 ,进而 进行 个 性 
化 推荐 。 为 增加 用 户 的 黏 性 , 越 来 越 多 的 网 站 和 社区 开始 采用 推荐 系统 为 用 户 
提供 个 性 化 的 优质 服务 。 同 时 , 随 着 Web 3. 0 时 代 的 到 来 以 及 “互联 网 十 ”理念 
的 提出 ,人 们 越 来 越 意识 到 推荐 系统 的 重要 性 并 纷纷 投入 其 中 。 例 如 ,亚马逊 、 
eBay, KX .京东 等 电子 商务 网 站 、Facebook Twitter 和 新 浪 微 博 等 社交 媒体 均 纷 
纷 在 原 有 业务 的 基础 上 增加 推荐 功能 。 事 实 表明 ,推荐 系统 的 融入 显著 提高 了 
用 户 的 满意 度 和 对 网 站 的 黏 性 ,进而 为 其 自身 带 来 了 可 观 的 经 济 效益 和 社会 影 
响 力 。 

不 过 ,单纯 地 以 用 户 和 项 目 为 驱动 的 推荐 引擎 并 不 能 满足 相关 用 户 的 实际 需 
要 ,用户 在 实际 购买 之 中 往往 会 结合 自己 的 实际 需要 以 及 相关 朋友 (本 书 称 为 社交 
网 络 信息 ) 的 推荐 来 做 最 终 选择 ,同时 传统 推荐 算法 往往 带 有 很 严重 的 “ 马 太 效 
应 ”。 也 就 是 说 ,推荐 的 商品 往往 都 是 热门 的 商品 ,因此 造成 热门 的 商品 更 加 热门 ， 
而 处 在 “长 尾 分 布 * 上 的 商品 仍 得 不 到 重视 。 为 此 ,将 社交 网 络 与 个 性 化 推荐 相 结 
合 提高 推荐 的 精确 度 是 近年 来 的 研究 热点 。 

在 海量 数据 的 虚拟 环境 下 ,电影 网 站 提供 的 节目 信息 非常 多 ,例如 按 演员 来 
说 ,每 天 都 会 更 新 该 演员 出 演 的 电影 ,包括 蓝光 高清、 标清 和 流畅 等 ,这 样 每 天 网 
站 上 的 数据 量 都 有 成 千 上 万 太 字 节 (1TB 二 1024GB) ,而 仅仅 通过 一 台 微 型 计算 机 
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或 手机 屏幕 ,希望 观众 找到 一 个 自己 真正 喜欢 的 电影 是 不 可 能 的 。 因 此 ,社区 或 网 
站 提供 了 一 些 智能 导购 的 需要 。 例 如 京东 的 JIMI, 根 据 用 户 的 兴趣 推荐 用 户 可 能 
感 兴趣 的 物品 ,用 户 可 以 很 容易 地 找到 他 们 所 需要 的 或 感 兴趣 但 不 容易 得 到 的 明 
确 的 项 目 。 而且, 从 实际 情况 来 看 ,用 户 的 需求 往往 是 对 商品 或 事件 的 兴趣 ,但 目 
前 还 不 清楚 什么 商品 可 以 满足 其 潜在 需求 。 这 时 ,如 果 商 家 基于 用 户 的 历史 行为 
分 析出 其 感 兴 趣 的 信息 并 将 这 些 信息 呈现 到 用 户 面 前 ,就 可 以 把 用 户 的 潜在 需求 
转化 为 现实 的 需求 ,从 而 给 用 户 带 来 惊喜 。 


1.2 推荐 系统 的 形式 化 定义 


目前 推荐 系统 常 采 用 的 方法 主要 有 基于 内 容 的 推荐 .基于 网 格 的 推荐 .基于 上 
下 文 情 景 的 推荐 和 协同 过 滤 推 荐 。 协 同 过 滤 (Collaborative Filtering, CF) 推 荐 技 
术 是 推荐 系统 中 最 为 常用 上 且 有 效 的 方法 ,可 分 为 基于 内 存 的 协同 过 滤 和 基于 模型 
的 协同 过 滤 , 前 者 根据 用 户 或 者 项 目的 相似 度 选 出 与 目标 用 户 最 相似 的 若干 用 户 
的 评分 来 对 未 评分 的 项 目 进行 评分 预测 ; 后 者 通过 分 析 用 户 和 项 目的 内 部 规律 ， 
预测 用 户 对 项 目的 偏好 ,其 中 概率 矩阵 分 解 技术 是 其 典型 代表 。 目 前 概率 矩阵 分 
解 技术 还 存在 数据 的 高 维 稀 玻 性 和 海量 数据 环境 下 的 扩展 性 等 制约 其 进一步 发 展 
的 瓶颈 问题 。 如 何 解决 以 上 问题 进而 提高 推荐 系统 的 推荐 质量 成 为 个 性 化 推荐 的 
关键 。 

一 个 典型 的 电影 推荐 系统 一 般 包 括 含 有 N 个 用 户 的 用 户 集 合 US (usu, 
us tux) WEA M 个 项 目的 项 目 集合 D {i ei vis ent sim) ,每 个 用 户 wEU 评 
价 了 工 中 的 一 部 分 项 目 ,评价 过 的 项 目 用 L, 1 表示 ,用 户 的 打分 记录 往往 表示 
成 Ryu ;如 式 (1-1) 所 示 。 





(2-D 








式 中 ,矩阵 ?中 每 一 行 x; 一 一 用 户 i 评价 过 的 电影 集合 ,所 有 用 户 集合 用 U RR: 

每 一 列 7; 一 一 评价 电影 ; 的 用 户 集合 ,所 有 电影 集合 用 V 表示 ; 

每 一 个 元 素 rj 一 一 用 户 i 对 电影 j 的 评分 ,通常 x; 的 取 值 为 1~5 的 整数 , 数 
据 越 大 表示 用 户 对 该 项 目 越 满 意 。 

实际 中 Raw AE W Fi it A Ciao 数据 集中 已 有 的 评分 数目 所 占 比 例 不 足 1%， 
因此 传统 推荐 算法 的 质量 才 会 特别 差 。 











Q 注 : 本 书 中 的 矩阵 .向 量 用 斜体 表示 ,而 不 用 黑体 表示 。 全 书 统一 。 
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在 现实 世界 中 ,以 商品 购买 为 例 , 用 户 的 购买 意图 受 两 方面 的 影响 , 即 用 户 本 
身 的 需要 和 用 户 朋 友 的 推荐 程度 。 如 图 1-1 所 示 为 基于 社交 网 络 的 推荐 机 制 示 
例 , 图 1-1(a) 是 用 户 的 信任 网 络 图 .该 图 是 一 个 有 向 图 ,图 中 包含 5 个 节点 (用 户 
数 ),9 条 边 ( 用 户 信任 关系 数 ) ,每 个 节点 代表 一 个 用 户 , 如 果 节 点 i 到 节点 j 存在 
3 , 则 表示 用 户 u 信任 用 户 wj ,对 应 的 权重 表示 信任 程度 的 大 小 。 注 意 , 用 户 间 的 
信任 关系 是 非 对 称 的 。 例 如 ,用 户 ww 信任 us ,但 是 us 对 ui 并 没有 明显 的 信任 关 
系 , 不 过 不 能 主观 认为 ws 不 信任 us ,因为 从 图 中 可 以 看 出 us 信任 us ,us 信任 和， 
根据 "六 度 空间 ”理论 ,us 对 wu, 也 是 具有 一 定 的 信任 度 的 , 若 采 用 加 法 模型 , 则 信任 
度 为 0.4; 若 采 用 乘法 模型 , 则 信任 度 为 0.03。 也 就 是 说 ,信任 关系 是 具有 传递 性 
的 ,同时 传递 算 子 的 选择 对 信任 度 也 有 很 大 影响 。 

图 1-1(b) 是 对 应 的 用 户 项 目 评分 矩阵 ,矩阵 中 已 有 的 值 表 示 用 户 对 项 目的 评 
分 ,缺失 部 分 是 需要 预测 的 。 以 看 电影 为 例 , 假 设 用 户 us 想 看 电影 i ,但 是 该 用 户 
对 该 电影 一 无 所 知 ,那么 其 就 会 求助 于 所 信任 的 朋友 w 和 wu ,us 对 该 电影 的 评分 
是 3 分 ,xs 的 评分 是 5 分 ,那么 该 电影 很 可 能 会 吸引 到 用 户 us ,也 就 是 XE n 的 
评分 也 可 能 很 高 。 值 得 注意 的 是 ,目标 用 户 对 不 同 用 户 的 信任 程度 是 不 一 样 的 。 
系统 的 目标 就 是 利用 评分 矩阵 和 信任 程度 的 大 小 精准 有 效 地 预测 缺失 评分 并 按照 
预测 评分 的 高 低 进 行 推 荐 。 











(b) 
图 1-1 基于 社交 网 络 的 推荐 机 制 示 例 


综 上 所 述 ,推荐 算法 的 形式 化 定义 如 式 (1-2) 所 示 。 
Vp€P. Vq€Q. q,— arg maxu(p.q) (1-2) 

式 中 ,P 一 一 用 户 集合 ; 

Q 一 一 能 够 推荐 给 用 户 的 物品 集合 ; 
一 个 用 来 计算 用 户 p 对 物品 g 偏好 程度 的 效用 函数 ,计算 过 程 可 以 表 
ARH u: PXQ-~~R, 其 中 尺 为 排序 后 的 项 目 集合 。 

算法 的 目标 是 对 于 每 个 用 户 p 都 找到 能 够 最 大 化 效用 函数 的 物品 子 集 
Qa, € Q. 





u 
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1.3 基于 近邻 的 协同 过 滤 推 荐 算法 


基于 近邻 的 协同 过 滤 推 荐 算法 是 一 种 非常 流行 的 建立 推荐 系统 的 方式 ,仅仅 
通过 收集 相似 用 户 的 行为 而 不 需要 用 户 的 人 口 统计 学 信息 即 可 自动 为 目标 用 户 进 
行 推荐 。 由 于 简单 易 用 ,协同 过 滤 在 工业 界 得 到 了 飞速 发 展 ,其 推荐 精度 主要 在 于 
相似 度 的 选择 。 下 面 介绍 基于 近邻 的 协同 过 滤 中 常用 的 相似 度 度量 方法 。 


1.3.1 余弦 相似 度 


余弦 相似 度 定 义 向 量 a 和 向 量 5 D. Roe PS u 行 和 第 v 行 ,将 两 个 向 量 的 
夹 角 余弦 值 定义 为 用 户 u 和 用 户 v 的 相似 度 , 如 式 (1-3) 所 示 。 


sim(u,v) = cos(a.b) ash (1-3) 
lallbl 


sim(u,v) 的 值 越 接 近 1, 说 明 用 户 55 HEP v 的 相似 度 越 高 。 


1.3.2 修正 余弦 相似 度 


修正 的 余弦 相似 度 鉴于 传统 的 余弦 相似 度 考 虑 了 用 户 的 评分 偏好 。 也 就 是 
说 ,有 的 用 户 倾向 于 评 高 分 ,有 的 用 户 倾 向 于 评 低 分 。 例 如 ,两 个 用 户 对 电影 (西游 
降魔 篇 3 和 《西游 伏 妖 篇 ) 分 别 评 分 为 5、4 和 3、2, 如 果 按照 传统 的 余弦 相似 度 来 计 
算 , 那 么 这 两 个 用 户 的 相似 度 很 低 , 其 实 这 两 个 用 户 的 偏好 是 一 致 的 , 即 相 对 于 电 
影 ( 西 游 伏 妖 篇 》, 两 个 用 户 都 更 喜欢 (西游 降魔 篇 )。 那 么 式 (1-4) 是 用 户 “与 用 户 
v 的 修正 余弦 相似 度 。 











Pe —n)XG,—r) 
sim(u,v) = (1-4) 


TE Gu — Tu)? "m (ra — Fo)? 
i€l, 


1.3.3 Pearson 相似 度 


Pearson 相似 度 和 修正 余弦 相似 度 不 同 的 是 分 母 为 用 户 的 共同 评分 项 目 
式 (1-5) 是 Pearson 相似 度 。 








by Qu 一 人 入) 这 (ra — Ty) 
i€T, 


sim(u.v) = = (1-5) 
Gu — Ta)? (ra =r 
JÈ JÈ 
1.3.4 Jaccard 相似 度 


Jaccard 相似 度 的 分 子 为 用 户 评分 项 目的 交集 ,分 母 为 并 集 , 使 用 该 相似 度 能 
大 致 度量 用 户 之 间 的 相似 度 。 式 (1-6) 是 Jaccard 相似 度 。 
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II, Io | 
IU 


以 基于 用 户 的 协同 过 滤 为 例 , 给 定 目标 用 户 ,可 以 找 出 与 其 最 相似 的 前 个 
用 户 记 为 邻居 集 N,,。 对 于 用 户 u 未 进行 评分 的 项 目 i 可 按照 式 (1-7) 进 行 预测 。 


sim(u,v) X (ru — ry) 
= WEN D AG !=0 


Pa =ret 
> sim(u,v) 


GEN AG, 1-70) 
由 式 (1-7) 可 对 任 一 用 户 未 进行 评分 的 项 目 进行 评分 预测 ,将 所 有 预测 结果 降 
序 排列 ,从 中 选 出 前 个 推荐 给 用 户 。 


1.4 基于 用 户 兴趣 的 推荐 算法 


近年 来 的 大 量 研究 表明 ,用 户 的 行为 记录 与 用 户 的 兴趣 有 着 极 大 的 关联 性 ,在 
推荐 系统 中 ,用户 的 行为 时 间作 为 一 个 很 重要 的 上 下 文 信息 ,用 来 表征 用 户 的 兴趣 
变化 。 

2000 年 Schwab 等 人 利用 逐步 遗忘 的 思想 设计 一 个 递减 的 寡 函 数 来 描述 用 户 
兴趣 的 变化 规律 , 即 用 户 最 近 的 行为 对 当前 兴趣 的 影响 最 大 ,反之 用 户 最 远 的 行为 
对 当前 兴趣 的 影响 最 小 ,并 利用 内 容 分 析 和 协同 过 滤 来 跟踪 用 户 兴趣 。2010 年 
Koren 等 人 提出 了 一 种 动态 协同 过 滤 推 荐 算法 ,在 矩阵 分 解 的 基础 上 加 入 时 间 序 
列 ,动态 跟踪 用 户 兴趣 变化 。2010 年 Xiong 等 人 将 时 间 维 度 作 为 约束 项 进行 张 量 
分 解 ,利用 贝 叶 斯 定理 、 公 式 、 算 法 进行 参数 自动 调整 ,以 此 来 改善 推荐 质量 。2011 
年 Li 等 人 对 用 户 兴趣 随时 间 变 化 的 规律 进行 建 模 ,提出 一 种 跨 时 域 的 协同 过 滤 
推荐 算法 , 即 当 用 户 组 内 用 户 之 间 的 关系 发 生 漂移 时 跨 时 域 共 享 评 分 矩阵 ,可 以 
追踪 用 户 兴趣 。2012 年 Ren 等 人 提出 用 户 偏 好 模型 以 此 来 捕获 用 户 兴趣 ,使 用 
期 望 最 大 化 构建 代表 用 户 偏好 风格 和 时 间 动 态 的 子 空间 ,同时 细 化 全 局 和 个 人 
偏好 ,以 此 进行 迭代 。2013 年 Liu 等 人 通过 研究 人 们 在 社交 网 络 中 的 在 线 活动 
和 流动 模式 ,利用 矩阵 分 解 预测 用 户 对 类 别 的 偏好 ,推荐 偏爱 类 别 的 相应 位 置 来 
提升 用 户 体验 。2015 年 Gasmi 等 人 利用 每 个 项 目的 类 别 信息 , 随 着 时 间 的 推移 
反映 用 户 喜好 的 动态 变化 ,该 算法 利用 权重 函数 赋予 每 个 评分 一 个 权重 ,增强 用 
户 最 近 和 长 期 的 兴趣 信息 ,削弱 用 户 短期 的 兴趣 信息 。2017 年 Yannis 等 人 在 基 
于 位 置 的 社交 网 络 中 加 入 时 间 .空间 和 文本 因素 ,并 考虑 时 间 维 度 和 时 间 间 隔 对 
用 户 兴趣 的 影响 

2002 年 赵亮 等 人 先 对 评分 矩阵 规范 化 再 进行 SVD 分 解 ,对 评分 矩阵 进行 降 
维 , 利 用 向 量 空间 方法 得 到 近邻 集合 进行 Top-N 推荐 。2007 年 郑 先 荣 等 人 利用 遗 
忘 曲线 提出 一 个 遗忘 函数 , 赋 子 每 个 评分 一 个 时 间 权 重 ,以 此 来 表示 用 户 兴趣 与 最 
近 行 为 关系 最 大 。2009 年 杨 怀 珍 等 人 提出 基于 时 间 加 权 的 个 性 化 推荐 算法 ,利用 


(1-6) 


sim(usv) = 





KE 人 
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Logistic 函数 来 表征 用 户 兴 趣 变 化 规律 ,在 计算 相似 度 时 加 入 时 间 权 重 。2012 年 
韩 忠明 等 人 为 了 揭示 在 线 内 容 的 时 间 动 态 性 ,利用 相似 度 方法 计算 时 间 序 列 聚 类 
问题 ,首先 利用 Haar 小 波 对 时 间 序 列 进行 降 维 , 然 后 进行 增 量 聚 类 ,将 发 展 趋势 相 
同 的 时 间 序 列 聚 为 一 类 ,以 此 来 产生 项 目 推荐 集 。2013 年 孙 光 福 等 人 在 概率 矩阵 
分 解 的 基础 上 对 用 户 间 的 时 序 行为 进行 建 模 , 利 用 用 户 对 项 目的 评分 时 间 发 现 用 
户 之 间 的 隐 式 关系 ,可 以 找到 目标 对 象 的 最 近邻 集合 并 产生 推荐 ,并 在 豆 儿 数据 集 
上 验证 了 其 算法 的 有 效 性 。2015 年 孙 光 明 等 人 根据 遗忘 规律 作为 用 户 兴趣 变化 
的 度量 方法 ,利用 在 一 定时 间 段 内 用 户 对 关键 词 的 访问 次 数 建立 自 适应 动态 兴趣 
度 权重 函数 ,使 得 推荐 的 项 目 与 用 户 偏 好 一 致 。2017 年 张 应 辉 等 人 利用 用 户 浏 览 
项 目的 时 长 来 衡量 其 兴趣 度 , 时 间 越 长 其 兴趣 度 越 高 ,对 于 项 目的 显 式 属性 进行 分 
类 ,对 于 项 目 隐 式 属性 可 采用 朴素 贝 叶 斯 算法 来 分 析 , 引 入 参数 综合 考虑 这 些 因 
素 ,最 终 找到 最 近邻 集合 并 产生 推荐 。 


1.5 基于 模型 的 协同 过 滤 推 荐 算法 


基于 模型 的 协同 过 滤 一 般 分 为 聚 类 模型 .分 类 模型 和 和 矩阵 分 解 模型 等 。 本 书 
主要 研究 其 中 的 矩阵 分 解 模型 及 其 与 社交 网 络 的 信任 相 结合 的 算法 。 


1.5.1 和 矩阵 分 解 模 型 


推荐 系统 中 的 隐语 义 模型 , 它 和 Topic Model 潜在 的 影响 因素 一 样 ,最 初 是 在 
文本 挖掘 领域 中 提出 来 的 。 例 如 ,在 推荐 系统 中 它 能 够 基于 用 户 的 行为 对 用 户 和 
项 目 进行 自动 分 析 , 也 就 是 把 用 户 和 项 目 划 分 到 不 同 主题 ,这 些 主题 可 以 理解 为 用 
户 的 兴趣 和 项 目 属性 ,其 中 的 典型 代表 是 矩阵 分 解 模型 。 

传统 的 矩阵 分 解 模 型 有 奇异 值 分 解 (Sigular Value Decomposition, SVD) 、 概 
RAR [Ve 4 fff (Probabilistic Matrix Factorization, PMF ) 和 非 负 和 矩阵 分 解 (Non- 
negative Matrix Factorization ,NME) 等 。 文 献 L8] 提 出 了 概率 矩阵 分 解 模型 ,该 模 
型 从 概率 生成 过 程 角度 描述 矩阵 分 解 过 程 , 有 效 缓解 了 数据 稀 琉 性 问题 : 文献 [9] 
提出 了 基于 邻 域 相 似 度 的 矩阵 分 解 模型 ,该 模型 考虑 了 用 户 兴趣 相似 度 ,进一步 控 
掘 评分 矩阵 的 有 效 信息 ,提高 推荐 精度 。 近 年 来 , 随 着 使 用 社交 平台 和 社交 网 络 的 
用 户 数量 增多 ,依赖 性 增强 ,社交 信息 为 协同 过 滤 推 荐 算法 带 来 了 新 的 数据 源 ,如 
好 友 推 荐 和 信任 用 户 推荐 均 有 效 促进 了 用 户 的 消费 行为 ,因为 在 现实 生活 中 相对 
于 品牌 ,价格 和 销量 等 参考 标准 ,用 户 更 倾向 于 信任 好 友 的 推荐 。 文 献 [11] 通 过 调 
查 得 出 相对 于 系统 给 出 的 推荐 ,用 户 更 喜欢 来 自 友 人 的 推荐 ; 文献 L[12] 则 表明 大 
部 分 网 站 通过 邀请 用 户 和 粉丝 来 作 决 策 。 鉴 于 此 ,大 量 研 究 人 员 开始 运用 社交 信 
息 来 改进 推荐 算法 。 

概率 矩阵 分 解 模型 在 传统 矩阵 分 解 的 基础 上 引入 了 概率 的 思想 ,假设 用 户 和 








第 1 章 BAN Po 


项 目的 隐语 义 空 间 都 服从 高 斯 分 布 ,同时 预测 评分 和 真实 评分 的 误差 也 服从 高 斯 
分 布 ,这 样 用 户 对 项 目的 预测 评分 就 是 一 系列 的 概率 组 合 问题 ,然后 根据 最 大 似 然 
估计 最 大 化 后 验 概 率 。 

2008 年 Salakhutdinov 和 Mnih 等 人 提出 概率 矩阵 分 解 算 法 ,该 算法 从 概率 的 
角度 来 预测 用 户 的 评分 ,假设 用 户 潜在 因子 矩阵 和 项 目 潜在 因子 矩阵 均 服从 均值 
为 0 的 球形 高 斯 先 验 分 布 , 在 此 假设 的 基础 上 ,结合 概率 论 和 和 矩阵 论 的 相关 理论 来 
预测 用 户 对 项 目的 偏好 。2013 4E , 涂 丹 丹 等 将 Ma 等 提出 的 联合 概率 矩阵 分 解 并 
被 应 用 到 计算 广告 ,该 算法 的 主要 思想 是 在 用 户 的 上 下 文 环境 约束 下 对 用 户 项 目 
评分 矩阵 进行 分 解 。2015 年 刁 海伦 融合 用 户 项 目 评分 矩阵 信息 和 社交 网 络 中 显 
式 的 信任 关系 提出 一 种 改进 的 联合 概率 矩阵 分 解 模型 ,同时 结合 隐 式 的 社交 网 络 
关系 做 进一步 的 研究 ,实验 结果 表明 改进 的 算法 在 数据 稀疏 情况 下 推荐 精度 较 高 ， 
而 且 对 于 用 户 冷 启动 问题 也 有 一 定 的 缓解 作用 。2016 年 Hernando “ A EAE fi A 
阵 分 解 模 型 应 用 在 传统 的 贝 叶 斯 概率 矩阵 分 解 模型 之 中 ,使 得 算法 具有 良好 的 可 
解释 性 。 

概率 矩阵 分 解 算法 通过 优化 预先 设 定 的 目标 函数 从 而 得 到 近似 全 局 最 优 解 HE 
荐 精度 较 高 ,同时 具有 坚实 的 理论 基础 ,能 较 好 地 应 用 于 实践 之 中 。 但 是 海量 数据 情 
况 下 ,由 于 用 户 和 购买 项 目 数量 之 间 的 关系 服从 寡 律 分 布 ,用 户 少 ,项 目 多 ,造成 数据 
集 极度 稀 蚊 ,而 且 由 于 算法 不 能 充分 挖掘 用 户 与 项 目 之 间 的 关系 ,导致 推荐 精度 急剧 
下 降 。 

矩阵 分 解 模 型 假设 用 户 对 项 目的 评分 受到 若干 潜在 因子 的 影响 ,将 用 户 和 项 
目 映射 到 一 个 共同 的 潜在 因子 空间 。 和 Topic Model 不 同 的 是 ,该 类 算法 到 底 受 
哪 种 因素 的 影响 却 很 难 确定 , 正 是 园 于 此 种 缺陷 ,一 般 又 将 矩阵 分 解 模型 称 为 隐语 
义 模 型 ,该 模型 最 早 由 Koren F 2009 年 提出 。 

传统 的 矩阵 分 解 模型 往往 将 固有 的 用 户 项 目 评 分 矩阵 Rsw 分 解 为 两 个 低 秩 矩 
阵 的 乘积 ,以 达到 对 和 矩阵 中 缺失 值 的 预测 目的 ,如 式 (1-8) 所 示 : 

Rym ~ Ui Viu (1-8) 
HP ,kKmin( M, N) , 指 的 是 潜在 因子 的 数量 ;， Ua 和 View 为 由 分 解 得 到 的 两 个 低 
秩 矩 阵 ,可 以 看 作 是 用 户 潜在 因子 矩阵 和 项 目 潜在 因子 矩阵 ,往往 通过 迭代 训练 来 
使 得 Usm 和 Viw 的 内 积 不 断 允 近 原 始 的 用 户 项 目 评分 矩阵 ,同时 得 到 Uv 和 View J 
还 可 以 对 用 户 没 有 评分 的 项 目 进行 评分 预测 。 

基于 矩阵 分 解 的 算法 是 一 种 学 习 型 算法 ,实际 中 往往 采用 随机 梯度 下 降 
(Stochastic Gradient Descent,SGD) 来 优化 预先 设 定 的 目标 函数 从 而 得 到 全 局 最 
优 解 , 而 且 由 于 潜在 因子 的 数量 &<min(M,N) ,算法 的 离线 计算 的 空间 复杂 度 低 ， 
这 在 当今 大 数据 的 环境 下 具有 很 强 的 实用 价值 ; 同时 ,由 于 该 算法 有 一 个 全 局 的 
目标 函数 ,使 得 算法 的 预测 准确 率 高 。 
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1.5.2 A B E 

理论 研究 表明 交替 最 小 二 乘 (Alternating Least Squares, ALS) 随 着 迭代 的 进 
行 误差 会 逐步 降低 直至 收敛 ,ALS 完全 不 能 保证 将 会 收敛 至 全 局 最 优 解 ,而 且 在 
实际 应 用 中 ,ALS 对 初始 点 选取 较为 敏感 ,不 恰当 的 选择 会 导致 数据 振荡 地 收敛 
到 局 部 最 优 解 。 

首先 按 高 斯 分 布 初始 化 用 户 和 项 目的 潜在 因子 向 量 U 和 V。 

然后 固定 V, 将 损失 函数 对 V 求 偏 导 , 并 令 导 数 等 于 0, 得 到 新 的 用 户 潜在 因 
子 向 量 口 ,如 式 (1-9) 所 示 : 


U — ("V AD? VTR (1-9) 
其 次 固定 器, 将 损失 函数 对 UU 求 偏 导 , 并 令 导 数 等 于 0, 如 式 (1-10) 所 示 : 
V — (UTU +AI) UTR (1-10) 


式 中 ,一 一 正则 化 系数 ,需要 实验 确定 。 
最 后 便 可 利用 得 到 的 用 户 项 目 潜在 因子 空间 U 和 V 进行 评分 预测 。 
1.5.3 概率 矩阵 分 解 


概率 矩阵 分 解 是 矩阵 分 解 模型 中 的 典型 代表 。 图 1-2 是 概率 矩阵 分 解 的 概率 











E1,2,,N 























图 1-2 ”概率 矩阵 分 解 的 概率 图 模型 
概率 矩阵 分 解 的 基本 思想 是 在 矩阵 分 解 的 基础 上 引入 概率 的 思想 ,假设 用 户 
和 商品 的 特征 向 量 和 矩阵 都 符合 高 斯 分 布 , 如 式 (1-11) 所 示 : 


N 
pU | a) = [[ NW; | 0.021) 

P (1-11) 
pV 1o = [[NC; | 0.081) 

j=l 
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根据 上 述 考量 ,可 以 结合 概率 论 和 和 矩阵 分 解 的 相关 知识 预测 用 户 对 项 目的 喜 
好 程度 ,如 式 (1-12) 所 示 。 
BG | U,V) = || IE tNG; | UTV; s)” (1-12) 
Sh ING Ip. o?) WEK TAH o 的 高 斯 分 布 ; 
IT 一 一 一 个 指示 矩阵, 当 且 仅 当 1 —1 表示 用 户 i 选择 了 项 目 j ,否则 为 0。 
利用 贝 叶 斯 推导 ,可 得 用 户 和 物品 隐 式 特征 的 后 验 概率 ,如 式 (1-13) 所 示 。 
pC | Ryo? ob ob) cc p(R | U,V) X pU | a) X pV | à) (1-13) 
对 上 述 预 测 公 式 取 对 数 , 如 式 (1-14) 所 示 。 





N M 


N 
Inp(UV | Ryo? ob 0%) —— 42 91 11, (R, UP — dz Sr 
20° Zap i=l 


i=1 j=1 


1 wv, -H(X dn) ino + 


2oy ji i=1 j=1 





NDIn + MD Inet | +C (1-14) 


式 中 ,C 一 一 一 个 不 依赖 于 模型 超 参 数 的 常量 。 
最 大 化 U FI V. 的 后 验 概率 等 于 最 小 化 式 (1-15)。 


1 N M A N x M 
arg min 225 p (Ry — UFV; ) + r2? | U; Il Ero tx I Vj ll fo 
D i=l j=1 


i=l j=l 





(1-15) 
式 中 ,Fro 一 一 F 范 数 ; 
Au 和 hy 一 一 正则 化 系数 ,防止 过 拟 合 。 
然后 利用 SGD 来 训练 ,如 式 (1-16) 所 示 。 
aL 
rong (1-16) 
v-v-x 3k 





式 中 ,7 一 一 SGD 的 学 习 速 率 。 

概率 矩阵 分 解 模型 能 较 好 地 适应 大 规模 数据 集 ( 与 其 他 矩阵 分 解 算法 比较 )， 
时 间 复 杂 度 随 观测 数据 量 的 增长 呈 线 性 增长 ; 同时 ,实验 结果 表明 ,在 数据 非常 稀 
草 的 情况 下 有 更 好 的 预测 性 能 。 


1.5.4 非 负 和 矩阵 分 解 


非 负 矩 阵 分 解 是 把 一 个 矩阵 分 解 成 两 个 矩阵 乘积 的 形式 ,以 此 来 分 解 多 维 
数据 。 

对 于 现代 化 推荐 系统 ,需要 处 理 的 数据 量 非常 庞大 ,在 现 有 和 矩阵 分 解 的 基础 上 
Lin 提出 了 一 种 时 间 复 杂 度 比较 低 的 NMF 算法 。 该 算法 利用 每 一 个 已 知 评分 项 
更 新 分 解 后 的 用 户 - 隐 因 子 矩 阵 忆 xx 和 项 目 - 隐 因 子 矩 阵 Qex,。 在 Lin 算法 的 基础 
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上 ,为 了 防止 分 解 后 的 矩阵 出 现 过 拟 合 ,加 入 正则 项 的 乘 性 迭代 ,如 式 (1-17)? 所 示 。 











218 ° Fui 
Bue ben i€l, 
| Hh |A pP ut + diz * Tai 
ien (1-17) 
Doa pi 
三 u€Ui 
qii qii 


|U; |A cgr: + Sibus e Thi 
i€ I, 


RP: 1 一 一 评分 不 为 零 的 项 目 集 合 ; 
UU, 一 一 评分 不 为 零 的 用 户 集合 ; 
Tui 用 户 对 项 目 i 的 实际 评分 ; 
ruo RM ES FEE ur i 的 评分 ,其 可 以 由 初始 化 的 用 户 - 隐 因 子 和 矩阵 
P 忆 ,xx 和 项 目 - 隐 因子 矩阵 Qix* 计 算得 到 。 


1.6 基于 信任 的 协同 过 滤 推 荐 算法 


针对 和 矩阵 分 解 算法 在 海量 数据 情况 下 推荐 精度 急剧 下 降 的 问题 ,国内 外 学 者 
提出 融合 其 他 信息 来 约束 传统 的 概率 矩阵 分 解 ,其 中 信任 信息 是 一 种 既 容 易 获 得 
又 十 分 有 效 的 信息 。 

推荐 系统 中 对 信任 信息 的 研究 主要 集中 在 信任 的 度量 方式 ,也 就 是 信任 的 传 
播 与 聚合 上 ,传统 的 信任 度量 方法 有 TidalTrust 和 MoleTrust 等 。TidalTrust 是 
一 个 递归 算法 ,在 Golbeck 等 人 的 实验 中 不 是 考虑 用 户 a 到 用 户 e 的 直接 信任 关 
系 ,而 是 首先 找到 a 到 c 的 其 他 全 部 路 径 ,分 别 计算 信任 值 , 据 此 得 到 如 下 结论 : 
@ 越 短 的 路 径 产生 的 信任 值 越 准 确 ; @ 包 含 越 高 信任 值 的 路 径 产生 的 信任 结果 比 
较 好 。 结 合 结论 @ 和 六 度 空 间 理论 ,作者 使 用 广度 优先 搜索 算法 来 计算 最 短路 径 
上 前 6 个 节点 的 信任 值 。 另 外 ,实际 情况 中 信任 的 计算 也 和 商品 的 评分 一 样 因 人 
而 异 。 也 就 是 说 ,有 的 人 倾向 于 给 出 高 的 信任 值 , 有 的 人 倾向 于 给 出 较 低 的 信任 
值 , 即 便 很 信任 对 方 。 因 此 ,需要 首先 计算 出 链接 路 径 上 每 个 用 户 的 所 有 路 径 中 信 
任 值 的 最 大 值 ,以 该 值 作为 最 小 的 信任 阔 值 做 加 权 处 理 , 以 此 得 到 局 部 信任 值 。 值 
得 注意 的 是 ,作者 在 文 末 提出 使 用 Tidal Trust 算法 不 一 定 比 使 用 信任 平均 值 的 协 
同 过 滤 推 荐 算法 效果 更 好 , 仅 当 某 些 用 户 的 偏好 显著 偏离 平均 值 时 效果 才 更 好 。 

MoleTrust 由 Massa 等 人 提出 ,首先 去 掉 数 据 集中 的 环 得 到 有 向 无 环 图 ,这 样 
每 个 用 户 不 会 重复 计算 ,提高 了 算法 的 实际 效率 ; 其 次 计算 和 目标 用 户 距离 在 2 
度 之 内 节点 之 间 的 信任 值 ,2 度 之 外 节点 之 间 信 任 值 的 计算 方式 和 TidalTrust 类 
似 。 另 外 ,与 TidalTrust 不 同 的 是 ,MoleTrust 算法 进行 加 权 处 理 时 考虑 所 有 对 物 
品评 分 而 且 目 标 用 户 能 够 达到 的 用 户 集 ,并 且 只 有 那些 信任 度 超过 特定 阅 值 的 用 
户 的 信任 度 才 被 考虑 在 内 ,该 阅 值 由 用 户 自己 指定 。MoleTrust 计算 的 也 是 局 部 
信任 值 .该 算法 比 类 似 PageRank 的 全 部 信任 度 算法 具有 更 好 的 预测 效果 ,尤其 是 
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对 那些 比较 具有 争议 的 用 户 ( 这 些 用 户 被 一 些 人 信任 而 被 另外 一 些 人 不 信任 ), 同 
时 该 算法 对 冷 启动 用 户 的 预测 效果 更 好 。 表 1-1 列 出 了 TidalTrust 和 MoleTrust 
算法 的 异同 。 


表 1-1 TidalTrust 和 MoleTrust 算法 的 异同 





算 法 TidalTrust MoleTrust 
传播 乘法 乘法 
聚合 基于 信任 的 加 权 平 均 基于 信任 的 加 权 平 均 
路 径 最 大 值 动态 静态 
fe E pa (e 动态 静态 
传播 中 的 TTP 需求 最 短路 径 最 短路 径 且 小 于 阔 值 
评分 预测 基于 信任 的 加 权 平 均 基于 信任 的 协同 过 滤 


这 些 经 典 的 信任 度量 方法 虽然 能 作为 互联 网 中 信任 度 的 度量 ,但 是 本 身 也 存 
在 一 些 缺 陷 , 例 如 上 述 算法 不 能 度量 本 身 不 存在 直接 联系 用 户 之 间 的 信任 程度 。 

鉴于 此 ,2013 年 西安 交通 大 学 秦 继 伟 博士 将 用 户 的 情感 需求 作为 调节 背景 ， 
融合 社交 网 络 中 的 信任 机 制 和 用 户 的 情感 偏好 提出 一 种 改进 的 推荐 算法 ,在 推荐 
系统 领域 公开 的 数据 集 上 的 实验 结果 表明 ,改进 算法 对 于 数据 稀 玻 性 和 虚假 评分 
具有 一 定 的 缓解 作用 ; 同年 , 王 海 艳 等 人 提出 结合 用 户 自 身 的 特征 来 改进 传统 的 
基于 协同 过 滤 的 服务 选择 模型 ,同时 结合 层次 分 析 法 确定 各 个 属性 的 权重 值 ,仿真 
实验 表明 该 算法 不 仅 提高 了 推荐 的 质量 ,同时 对 于 攻击 具有 一 定 的 健壮 性 。2014 
年 Zeng 等 人 提出 一 种 社交 网 络 中 的 混合 信任 聚合 模型 ,信任 值 的 计算 过 程 中 不 仅 
考虑 用 户 间 的 直接 信任 关系 和 间接 信任 关系 ,也 同时 考虑 一 个 用 户 如 何 被 组 内 的 
其 他 用 户 所 信任 ,实验 结果 表明 此 信任 计算 方式 能 合理 地 计算 出 所 有 用 户 之 间 的 
信任 值 ; 同年 , 朱 强 等 人 结合 社会 网 络 分 析 中 的 凝聚 子 群 提出 一 种 改进 的 协同 过 
滤 推荐 算法 ,在 各 个 子 群 中 进行 朋友 推荐 和 服务 计算 。2015 年 Ma 等 人 提出 一 种 
融合 标签 信息 的 扩展 协同 过 滤 方 法 ,在 两 个 公开 数据 集 上 的 实验 结果 表明 ,新 算法 
在 提升 推荐 精度 的 前 提 下 对 冷 启 动 项 目的 推荐 精度 也 有 显著 提升 ; 同年 ,Shen 等 
人 提出 一 种 在 线 社交 网 络 的 信任 计算 方法 , 增 量 地 计算 社交 网 络 用 户 之 间 的 信任 
值 ,包括 基于 用 户 的 协同 过 滤 、 基 于 项 目的 协同 过 滤 、 奇 异 值 分 解 和 基于 信任 的 协同 
过 滤 的 实验 结果 表明 ,此 种 增 量 计算 方法 能 显著 提高 用 户 的 黏 性 。2016 年 Chen 等 
人 通过 一 种 信任 矩阵 分 解 形式 来 融合 传统 的 信任 传播 和 信任 聚合 计算 方式 ,在 多 
个 数据 集 上 的 实验 结果 表明 ,该 方法 能 显著 提高 推荐 精度 ,尤其 是 在 冷 启动 情况 下 
相对 于 传统 的 其 他 方法 提升 效果 更 明显 ; 同年 ,Gohari 等 人 提出 一 种 信任 机 制 增 
强 协同 过 滤 推 荐 算法 的 推荐 模型 ,结合 具有 共同 评分 用 户 之 间 的 稀疏 信任 关系 提 
出 一 种 新 的 信任 传播 算法 ,实验 结果 表明 该 算法 对 稀疏 用 户 的 推荐 精度 很 高 ,而且 
对 冷 启动 用 户 效果 更 好 ; 同年 ,Meyffret 等 人 利用 局 部 信任 关系 进行 个 性 化 推荐 ， 
更 进一步 提升 了 推荐 的 准确 度 。 
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1.7 推荐 系统 现存 问题 


和 矩阵 分 解 应 用 在 推荐 系统 中 目前 存在 四 类 问题 , 即 冷 启动 问题 .数据 稀 琉 性 问 
题 .可 扩展 性 问题 和 易 受 攻击 性 问题 。 冷 启动 主要 是 为 了 解决 新 用 户 和 新 项 目的 
推荐 问题 , 易 受 攻击 主要 是 为 了 缓解 用 户 的 恶意 评分 ,从 而 提升 相关 用 户 的 知名 度 
或 者 提升 相关 项 目 被 推荐 的 次 数 。 


1.7.1 iv 


在 推荐 系统 中 , 冷 启动 问题 主要 表现 在 以 下 几 方 面 : 当 新 用 户 加 入 系统 时 , 没 
有 浏览 或 评价 过 任何 产品 ,没有 用 户 的 行为 数据 ,所 以 也 就 无 法 根据 用 户 的 历史 行 
为 预测 其 兴趣 ,从 而 无 法 为 新 用 户 提供 推荐 服务 ; 当 系 统 加 入 新 项 目 时 ,没有 用 户 
对 其 评价 过 ,也 不 能 被 推荐 ; 在 一 个 新 开发 的 个 性 化 推荐 系统 中 ,如 何在 系统 一 发 
布 就 可 以 让 用 户 体 验 到 个 性 化 推荐 服务 。 

Bedi 等 人 利用 Facebook 社交 网 络 上 用 户 之 间 的 互动 ,试图 处 理 冷 启动 问题 。 
Facebook 是 一 个 很 受 欢 迎 的 社交 网 站 ,朋友 或 熟人 的 选择 往往 会 影响 用 户 的 意见 
或 选择 ,可 以 利用 这 个 思想 来 为 用 户 提 供 推荐 ; 提出 一 个 IBSP 算法 ,利用 社会 交 
往 因 子 克服 冷 启动 问题 ; 使 用 Java 开发 的 一 个 图 书 原型 系统 ,用 Facebook 的 API 
图 形 从 用 户 的 社交 图 中 提取 信息 。 于 洪 等 人 利用 用 户 注册 信息 (年 龄 .性别 、 职 业 、 
民族 .居住 地 等 ) 和 项 目 内 容 信息 (项 目的 详细 描述 ) 分 别 进行 建 模 , 提 供 推荐 服务 。 
Le 等 人 提出 一 种 新 的 相似 度 度量 方法 一 一 NHSM 来 解决 用 户 冷 启动 问题 。 


1.7.2 数据 稀疏 性 


在 传统 推荐 算法 的 研究 过 程 中 ,往往 具有 海量 的 用 户 和 项 目 信息 。 也 就 是 说 ， 
用 户 和 项 目的 潜在 因子 矩阵 是 高 维 稀疏 的 ,由 此 导致 任意 两 个 向 量 之 间 近 似 正 交 ， 
计算 得 到 的 相似 度 往往 为 零 ,传统 的 基于 相似 度 计算 的 模型 将 得 不 到 理想 的 结果 。 
因此 ,评价 数据 集 的 稀疏 度 显得 十 分 必要 ,实际 应 用 中 往往 采用 用 户 项 目 评分 矩阵 
中 未 评分 数据 量 占 评分 总 量 的 比例 作为 稀疏 度 的 衡量 指标 , 稀 玻 度 越 大 ,传统 算法 
的 精度 越 低 ,也 就 越 难处 理 。 


1.7.3 可 扩展 性 


在 大 数据 环境 下 ,由 于 用 户 量 和 数据 量 巨大 ,传统 的 矩阵 分 解 算法 响应 缓慢 ， 
同时 存储 成 本 较 高 ,这 就 限制 了 传统 的 矩阵 分 解 算法 在 实际 中 的 应 用 。 有 鉴于 此 ， 
改进 的 算法 复杂 度 要 越 低 越 好 ,同时 通过 分 布 式 文件 系统 (Hadoop Distributed 
File System,HDFS) 来 存储 数据 ,考虑 计算 效率 ,这 时 可 将 矩阵 分 解 算法 进行 并 行 
化 操作 ,以 此 来 提高 算法 对 海量 数据 的 处 理 能 力 。 
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1.7.4 ”用户 兴趣 漂移 


由 于 用 户 的 兴趣 爱好 瞬息 变化 ,存在 用 户 兴 趣 漂移 问题 ,给 推荐 系统 带 来 极 大 
的 挑战 ,影响 推荐 的 实时 性 。 引 起 用 户 兴趣 漂移 的 主要 原因 : 由 于 年 龄 增长 或 转 
换 生 活 状态 ,用 户 自身 的 兴趣 和 关注 点 会 有 不 同 ; 用 户 兴趣 受 新 闻 事 件 和 项 目 流 
行 度 的 影响 ; 用 户 对 项 目的 兴趣 会 受到 季节 效应 和 节日 的 影响 。 例 如 , 当 用 户 在 
网 上 看 电影 时 ,今天 因为 新 电影 的 上 映 或 其 他 原因 喜欢 某 一 主题 的 电影 ,明天 又 会 
因为 其 他 原因 关注 另外 一 种 主题 的 电影 ,又 或 是 因为 有 其 他 人 的 加 入 而 观看 别人 
喜爱 的 类 型 电影 ,用 户 的 兴趣 随时 间 、 节 日 和 人 物 变 化 而 变化 。 

由 于 上 述 问 题 以 及 各 方面 的 原因 ,都 会 导致 推荐 质量 下 降 。 所 以 算法 改进 的 
最 终 目的 是 向 用 户 准确 推荐 项 目 , 所 推荐 的 结果 使 得 用 户 满意 。 


1.8 评测 指标 


推荐 算法 的 评测 指标 很 多 ,针对 推荐 系统 的 侧重 点 不 同 , 其 评价 标准 也 不 尽 相 
同 。 衡 量 算法 的 评分 预测 准确 度 时 多 采用 平均 绝对 误差 (Mean Absolute Error. 
MAE) 和 均 方 根 误差 (Root Mean Square Error,RMSE) 指 标 ; 针对 Top-N 推荐 的 
预测 准确 率 时 一 般 通 过 准确 率 (Precision) .召回 率 (Recall) 度 量 F ffi CF-Measure) 
和 PGOG N 指标 。 

推荐 结果 的 召回 率 定义 如 式 (1-18) 所 示 。 





TIRATI 
Recall = SAT (1-18) 
推荐 结果 的 精确 率 定义 式 (1-19) 所 示 。 
SR, CE: | 
Precision — SSRI (1-19) 


uU 
综合 考虑 精确 率 和 召回 率 , 将 两 者 融合 在 一 起 形成 下 指标 ,定义 式 (1-20) 
所 示 。 


2 X Recall X Precision 
Precision 十 Recall 


Top-N 推荐 列表 中 的 项 目 与 测试 集中 评分 最 高 项 目的 匹配 度 定义 如 式 (1-21) 
所 示 。 


F 





(1-20) 





# relevant items in top N items for u 


N 
为 了 衡量 推荐 系统 发 气 长 尾 的 能 力 ,使 用 覆盖 率 (Coverage) 来 计算 系统 所 推 
荐 的 项 目 占 项 目 集合 的 比例 ,这 是 商家 最 关心 的 指标 ,其 定义 如 式 (1-22) 所 示 。 





PGOGN C1-21) 
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Coverage = Ini (1-22) 
推荐 列表 R, 的 多 样 性 定义 式 (1-23) 所 示 。 
2) d=simG.j)) 
Diversity(R, ) A (1-23) 
—R,(R, — 1) 
2 
系统 整体 的 多 样 性 定义 式 (1-24) 所 示 。 
Diversity = 1 V piversity(R,) (1-24) 


1 veu 


本 书 主要 采用 MAE M RMSE 指标 衡量 评分 预测 准确 度 ,MAE 用 来 衡量 推荐 
的 精确 率 , 能 很 好 地 反映 预测 值 误差 的 实际 情况 。 设 在 训练 集 上 得 到 用 户 的 预测 评 
分 集合 为 p ={ Pars Duas Puss? > Pun) ,用 户 实 际 评分 集合 为 > 5 {ruruta 
Tun) ,通过 计算 两 集合 评分 的 差 值 来 衡量 推荐 的 精确 率 。MAE 定义 如 式 (1-25) 
所 示 。 


2) dra Pui | 


— wiEN 
MAE = N (1-25) 


RMSE 同样 用 来 衡量 推荐 的 精确 率 ,RMSE 更 侧重 于 预测 评分 与 实际 评分 差 
值 的 绝对 值 , 相 对 MAE 加 大 了 惩罚 力度 ,RMSE 值 越 小 , 则 MAE 值 越 小 ,推荐 精 
确 度 越 高 。RMSE 定义 如 式 (1-26) 所 示 。 





(1-26) 








本 章 小 结 


本 章 对 推荐 算法 的 相关 知识 进行 了 介绍 ,讨论 推荐 算法 的 分 类 及 各 算法 的 基 
本 思想 ,并 着 重 分 析 基 于 内 存 协 同 过 滤 推 荐 算法 ,阐述 推荐 算法 存在 的 问题 .实验 
方法 和 评测 指标 ,只 有 充分 了 解 协同 过 滤 推 荐 算法 才能 针对 其 做 进一步 的 研究 。 
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第 二 篇 ”基于 时 序 的 协同 
过 滤 推荐 算法 


目前 协同 过 滤 遇 到 很 多 问题 和 挑战 ,其 时 效 性 是 主要 问题 ,严重 影 
响 了 推荐 质量 。 由 于 传统 的 协同 过 滤 算 法 忽略 了 随 着 时 间 变 化 而 用 户 
的 兴趣 也 在 不 断 发 生变 化 这 一 问题 , 即 存在 用 户 兴 趣 漂移 现象 。 传 统 的 
协同 过 滤 推 荐 算法 只 是 单一 地 通过 评分 来 分 析 用 户 的 兴趣 爱好 ,统一 地 
将 评分 用 1 一 5 分 代表 用 户 的 喜爱 程度 ,其 时 效 性 不 足 。 用 户 的 兴趣 偏 
好 不 但 范围 广泛 ,而 且 实时 变化 ,例如 : 一 个 孩子 在 几 岁 时 可 能 对 动画 
片 感 兴趣 ,在 青春 期 可 能 对 浪漫 爱情 片 感 兴趣 ,随后 又 可 能 对 文艺 片 感 
兴趣 ,再 过 几 年 可 能 对 剧情 片 感 兴趣 等 。 随 着 时 间 推 移 , 用 户 的 关注 点 
在 不 断 变 化 ,如 何 捕获 这 一 动态 的 时 间 效应 是 一 个 难题 。 





针对 传统 协同 过 滤 推 荐 算法 中 评分 数据 稀 玖 性 及 所 造成 的 推荐 质量 不 高 问 
题 ,提出 一 种 巴 氏 系数 (Bhattacharyya Coefficient) 改进 相似 度 的 协同 过 滤 推 荐 算 
法 。 在 基于 近邻 协同 过 滤 推 荐 算法 基础 上 ,利用 巴 氏 系数 改进 相似 度 计算 方法 ,在 
计算 相似 度 时 不 仅 依靠 两 个 用 户 间 的 共同 评分 而 是 所 有 评分 ,首先 利用 Jaccard 相 
似 度 来 计算 用 户 间 的 全 局 相似 度 ; 其 次 使 用 巴 氏 系数 获得 评分 分 布 的 整体 规律 ， 
并 结合 Pearson 相关 系数 来 计算 其 局 部 相似 度 ; 最 后 融合 全 局 相似 度 和 局 部 相似 
度 得 到 最 终 的 相似 度 和 矩阵 。 在 Movielens 数据 集 的 实验 结果 表明 ,该 算法 在 稀 玻 
数据 集 上 获得 更 好 的 推荐 结果 ,有 效 地 缓解 了 评分 数据 稀疏 性 问题 ,提高 了 推荐 的 
准确 度 。 


2.1 引言 


推荐 系统 帮助 人 们 成 功 解决 信息 过 载 问 题 ,并 且 在 过 去 的 几 十 年 建立 了 电子 
商务 的 重要 组 成 部 分 。 推 荐 系统 的 首要 任务 是 通过 对 大 型 项 目 空间 的 滤波 为 用 户 
提供 项 目 或 产品 的 个 性 化 推荐 。 很 多 推荐 算法 在 电子 商务 ,数字 图 书馆 .电子 媒体 
和 在 线 广告 等 各 种 应 用 中 发 展 , 其 中 协同 过 滤 是 迄今 为 止 应 用 最 广泛 .最 成 功 的 个 
性 化 推荐 技术 。 

基于 近邻 的 协同 过 滤 作 为 协同 过 滤 中 重要 的 一 类 , 因 其 简单 .直观 ,有 效 的 特 
点 被 广泛 应 用 于 电影 .音乐 .图 书 等 领域 。 其 基本 思想 是 通过 用 一 种 相似 度 度 量 方 
法 找到 最 近邻 居 集 合 (目标 用 户 的 最 相似 用 户 集合 或 项 目的 最 相似 项 目 集合 ) ,最 
后 通过 对 最 近邻 居 集 合 的 评分 进行 加 权 平 均 求 和 ,从 而 产生 推荐 集 。 相 似 度 计算 
的 准确 性 直接 影响 推荐 质量 ,传统 的 相似 度 度 量 方法 利用 两 个 用 户 对 相同 项 目的 
评分 (共同 评分 ) 来 计算 用 户 之 间 相 似 度 ; 项 目 之 间 相 似 度 通过 对 项 目 共同 评分 用 
户 的 评分 计算 得 到 。 然 而 , 当 数据 极 大 稀 政 时 无 法 保证 足够 的 共同 评分 数据 ,传统 
的 相似 度 计算 方法 推荐 效果 不 佳 。 即 使 没有 一 个 共同 评分 用 户 , 两 个 项 目 也 可 以 
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是 相似 的 ; 用 户 评 价 的 项 目 不 同 ,两 个 用 户 也 可 以 是 相似 的 ,这 些 情况 是 传统 的 相 
似 度 计算 方法 没有 考虑 到 的 。 因 此 ,传统 的 相似 度 计 算 方 法 并 不 适合 于 稀 玖 数据 
(共同 用 户 很 少 或 者 共同 评价 项 目 很 少 甚至 没有 )。 

文献 [4j 在 社交 网 络 中 引入 了 用 户 相似 度 概 念 ,提出 了 基于 用 户 相 似 度 的 协同 
过 滤 推 荐 算法 ,以 改善 社交 网 络 中 用 户 好 友 推 荐 的 问题 。 文 献 L5] 提 出 了 基于 用 户 
模糊 相似 度 的 协同 过 滤 推 荐 算法 ,分 别 建 立 年 龄 和 评分 的 梯形 模糊 模型 ,将 用 户 年 
龄 和 评分 模糊 化 ,进行 相似 度 计算 。 文 献 [6] 基 于 搜索 引擎 日 志 , 提 出 了 一 种 基于 
流行 性 和 相似 度 相 结合 的 查询 推荐 策略 ,为 目标 用 户 产生 推荐 词 集合 ,改善 推荐 的 
多 样 性 和 流行 性 。 文 献 L7] 提 出 了 一 种 结合 Jaccard 相似 度 和 Pearson 相关 系数 的 
改进 相似 度 度量 方法 ,在 计算 相似 度 时 不 但 考虑 共同 评分 还 考虑 共同 评分 的 绝对 
数量 ,提供 精确 的 评分 预测 J. Bobadilla 提出 了 基于 MSD 的 相似 度 度量 方法 ,并 
在 此 基础 上 将 评分 数据 结合 上 下 文 信息 ,提出 Jaccard 与 MSD 相 结 合 的 相似 度 来 
提高 Pearson 相关 性 的 结果 四。 上 述 改进 相似 度 计算 方法 在 计算 相似 度 时 只 考虑 
了 相似 度 的 局 部 信息 ,没有 考虑 其 全 局 相似 度 。 

针对 上 述 问 题 ,本 章 提 出 了 一 种 利用 巴 氏 系数 改进 相似 度 的 协同 过 滤 推 荐 算 
法 (BCCF) ,改进 相似 度 计算 重视 用 户 的 每 一 个 评分 ,在 计算 用 户 之 间 相似 度 时 不 
单单 只 考虑 用 户 评分 之 间 的 相似 度 。 分 析 传 统 相似 度 方法 的 优 缺 点 ,结合 Jaccard 
和 Pearson 方法 的 优点 ,利用 巴 氏 系数 来 发 现 用 户 评分 的 分 布 规律 ,在 Movielens 
数据 集 的 实验 表明 ,BCCF 算法 在 相对 稀疏 的 数据 集 上 的 表现 更 好 ,可 以 有 效 改 善 
评分 数据 稀疏 性 问题 ,提高 预测 评分 的 准确 性 。 


2.2 相关 工作 


协同 过 滤 是 推荐 系统 中 应 用 最 广泛 的 算法 之 一 ,其 关键 在 于 最 近邻 居 集 合 的 
选择 ,推荐 系统 的 性 能 直接 依赖 于 目标 用 户 ( 项 目 ) 邻 居 的 选择 ,也 就 是 依赖 于 用 户 
(项 目 ) 之 间 相 似 度 的 度量 ,因而 改进 相似 度 计算 方法 成 为 缓解 数据 稀 玖 性 问题 HR 
高 推荐 质量 的 有 效 途 径 之 一 。 协 同 过 滤 中 常用 的 相似 度 度量 方法 包括 余弦 相似 
度 、 调 整 余弦 相似 度 、Pearson 相关 系数 和 Jaccard 相似 度 等 中 ,以 基于 用 户 的 协同 
过 滤 推荐 算法 为 例 。 


2.2.1 余弦 相似 度 





> ; Tul wi 
EL 


in, (usv) = ——— e — — — (2-1) 


| Sats ol Sree 
iE iET 
SUP: sima (usv) — 28 92 TR DU ; 


L.,—— HP u 和 用 户 v 的 共同 评分 项 目 集 ; 
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ri 和 rw 一 一 分 别 表示 用 户 w 和 用 户 v 对 项 目 i 的 评分 。 
余弦 相似 度 用 两 个 向 量 的 夹 角 余弦 值 度量 相似 度 ,两 个 向 量 的 夹 角 越 小 ,其 夹 
角 余 弦 值 越 大 , 则 余弦 相似 度 越 高 。 这 种 方式 对 评分 数值 不 敏感 ,如 x 二 (1,1)， 
r,— (5,5) sima, (us,v) 王 1, 尽管 两 个 用 户 的 评分 差距 很 大 (一 个 非常 满意 ,一 个 非 
常 不 满意 ) ,但 两 个 用 户 的 相似 度 却 为 1。 余弦 相似 度 过 于 关注 向 量 之 间 的 夹 角 而 
忽视 向 量 的 长 度 (共同 评分 项 数量 ), 且 过 于 依赖 两 个 用 户 的 共同 评分 。 


2.2.2 调整 余弦 相似 度 
ADE Cot Pe) (Fas =F) 


SIM cos (Usu) = (2-2) 
Tm (rea =ru)? JÈ (ro — 2)? 
jer, 
式 中 : sims (u,v) 一 一 调整 余弦 相似 度 ; 
r, — HP u 的 平均 评分 ; 
六 一 -用户 的 平均 评分 。 
调整 余弦 相似 度 通过 减 去 平均 值 来 提升 对 评分 数值 的 敏感 程度 ,但 无 法 辨认 
其 正 负 相关 性 。 如 二 (4,5),r, 二 (5,4) sima Gio) = 1. BFP 3E HO TE 
价 都 非常 满意 ,逻辑 上 是 非常 相似 的 ,其 计算 结果 与 实际 逻辑 不 相符 。 


2.2.3 Pearson 相关 系数 


$3) Cui) (ro Pe) 
ije€l, 


SiMpear Cu v) = (2-3) 


p> (r.a — 7. dt (rs) he)? 


jE jEl, 
SEA: simpear Cuv) Pearson 相关 系数 。 

Pearson 相关 系数 是 衡量 两 个 数据 集合 之 间 的 线性 关系 , 令 ,二 (1,1,3,3,2)， 
r,—(3.5.5.5.4) ,simpear (usv) 二 1。 两 组 数据 的 差异 明显 ,用户 对 项 目的 评分 都 
较 低 , 而 用 户 v 对 项 目的 评分 都 较 高 ,很 难看 出 两 者 之 间 有 相关 性 ,其 计算 结果 与 
理论 分 析 完 全 相反 。Pearson 相关 系数 考虑 到 用 户 评分 的 偏差 , 却 忽 略 了 用 户 共 同 
评分 的 项 目 数 , 所 以 线性 相关 系数 并 不 能 完美 地 度量 相似 度 。 


2.2.4 Jaccard 相似 度 






























































sims. (usv) =| " r | (2-4) 
式 中 : sim. (usv) Jaccard 相似 度 ; 
I 一 一 用 户 “评分 的 项 目 ; 


I 一 一 用 户 v 评 分 的 项 目 。 
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Jaccard 相似 度 与 Pearson 相关 系数 不 同 ,Jaccard 相似 度 仅 考虑 了 两 个 用 户 的 
共同 评分 数 , 但 未 考虑 绝对 评分 ,从 而 影响 用 户 相似 度 的 准确 性 。 

根据 上 述 传统 相似 度 计算 方法 存在 的 缺陷 ,通过 改进 相似 度 计 算 方法 来 缓解 
传统 协同 过 滤 推 荐 算法 中 存在 的 数据 稀疏 性 问题 ,本 书 在 基于 近邻 协同 过 滤 推 荐 
算法 的 基础 上 ,提出 了 一 种 利用 巴 氏 距离 改进 相似 度 度量 方法 ,充分 利用 用 户 的 每 
一 个 评分 ,即使 没有 一 个 共同 项 目 评分 时 ,也 可 以 计算 两 个 用 户 之 间 的 相似 度 。 
Jaccard 相似 度 通 过 计算 两 个 用 户 共同 评分 项 目 数 的 比重 ,能 够 在 全 局 上 衡量 两 个 
用 户 的 相似 度 , 以 此 作为 全 局 相似 度 ; Pearson 相关 系数 考虑 到 用 户 评分 偏差 ,并 
结合 巴 氏 系数 得 到 的 评分 整体 规律 ,以 此 可 以 作为 局 部 相似 度 , 将 全 局 和 局 部 相似 
度 进行 融合 作为 两 个 用 户 之 间 最 终 的 相似 度 值 。 


2.3 一 种 巴 氏 系数 改进 相似 度 的 协同 过 滤 推 荐 算法 


2.3.1 巴 氏 系数 


巴 氏 系数 (Bhattacharyya Coefficient. BC) ft Xt Pi 4 Be tt FF As B9 E A AY HE BL 
算 ,可 用 来 对 两 组 样本 的 相关 性 进行 测量 ,已 广泛 应 用 于 信和 号 处 理 、 模 式 识 别 研究 
领域 。 在 统计 学 中 巴 氏 系数 用 于 测量 两 种 离散 概率 分 布 的 可 离 性 ,衡量 两 个 概率 
分 布 之 间 的 相似 度 。 

在 连续 域 两 个 密度 分 布 Ce) FAL ps(x) 之 间 的 相似 度 用 巴 氏 系数 (BC) 定 义 如 
式 (2-5) 所 示 。 








BC(pi,p:) = | Voconia (2-5) 
在 离散 域 上 BC 定义 如 式 (2-6) 所 示 。 
BC(pisp2) = >) V piGO pi GO (2-6) 
rEX 





RP: 密度 pi (xz) 和 ps (x) 已 知 的 评分 数据 。 
用 户 u 和 w 的 评分 类 别 用 pi 和 pw 来 评估 其 离散 密度 ,计算 用 户 w 和 w 之 间 
的 BC 相似 度 如 式 (2-7) 所 示 。 


BCG v) = BCCP. +p.) = 5 A (Pan) Ga) (2-7) 
式 中 : m 评分 类 别 总 数 ; 
ba Eh ge Zu 为 对 用 户 u 评分 的 项 目 总 量 , th HAF PEON 的 项 








Hd, >) 站 = >) 加 一 1 
例如 ,用 户 x 和 w BOTEAE IS] TE n, — (1.0.2.0.1.0.2.0.3.007T 7, — (0.1.0.2. 
0,1,0,2,0,3)7 ,评分 在 1~5 STW! u 和 w 之 间 的 BC 系数 如 式 (2-8) 所 示 。 








第 2 章 ”基于 巴 式 系数 改进 相似 度 的 协同 过 滤 推 荐 算法 P 27 


BC(u,v) = Ba ba 
[SES 
GG) ee ev 


2.3.2 巴 氏 系数 相似 度 


基于 巴 氏 距离 提出 一 种 新 的 相似 度 度量 方法 一 一 巴 氏 系数 相似 度 , 利 用 巴 氏 
系数 改进 相似 度 根 据 用 户 的 所 有 评分 来 计算 两 个 用 户 之 间 的 相似 度 , 利 用 Jaccard 
相似 度 计算 两 用 户 之 间 的 全 局 相似 度 ,再 利用 巴 氏 系数 分 析 评 分 分 布 并 结合 
Pearson 相关 系数 得 到 局 部 相似 度 ,结合 局 部 与 全 局 相似 度 获 得 最 终 的 相似 度 值 。 
设 用 户 u 和 w 评价 的 两 个 项 目 分 别 为 I,。 和 了 ,, 当 两 用 户 之 间 的 共同 评分 项 目 数 为 
OW I, (1, — SAP u 和 w 评价 的 两 项 目 之 间 的 相似 度 ( 用 BC 系数 ) 和 两 个 项 目 
评分 的 局 部 相似 度 。 其 局 部 相似 度 定义 如 式 (2-9) 所 示 。 

simi (usv) = D XO BC Cu, v) loc rui sru) (2-9) 


i€1, JEL 
式 中 : BC(u,v)—H Pt u 和 w 的 全 部 评分 信息 ; 
loc (rai sry ) 一 一 评分 rw 和 rs 之 间 的 局 部 相似 度 。 

BC 系数 在 没有 共同 评分 情况 下 也 可 以 计算 用 户 w 和 w 之 间 的 相似 度 , 如 果 两 
个 用 户 在 全 局 角度 上 是 相似 的 , 则 BC(u,v) 可 以 提高 用 户 u 和 的 评分 之 间 的 局 
部 相似 度 ; 另 一 方面 ,如 果 用 户 w 和 w 完全 不 相似 , 则 BC(u,v) 降 低 两 个 用 户 评分 
之 间 局 部 相似 度 的 重要 性 。 局 部 相似 度 既 提 供 非 常 重要 的 用 户 局 部 信息 ,也 必须 
提供 用 户 评 分 之 间 的 正和 负 关 系 ,如 式 (2-10) 所 示 , 可 以 用 loc Cru s ry) RIR 
Pearson 相关 系数 来 评估 两 评分 之 间 的 局 部 相似 度 。 

2j (rn) 7n) 


ijiET 


i J » (rus m n) LX. (fui 一 8) 


JEL, 
利用 式 (2-11) 衡 量 两 个 用 户 评分 之 间 的 相关 性 simge Cu v) ,融合 局 部 相似 度 
和 全 局 相似 度 得 到 最 终 的 相似 度 值 。 当 BC Cu 0 = 1 时 局 部 相似 度 的 作用 最 大 ， 
为 相同 项 目 提供 最 大 的 局 部 相似 度 ; 当 BCC. —0 时 局 部 相似 度 为 0, 此 时 全 局 
相似 度 就 是 最 终 的 相似 度 值 。 
simge (usv) = simyc(usv) + 9, >)BC(u,o)loc(rayrs) (2-11) 


iE j€1, 

本 章 提出 的 巴 氏 系数 相似 度 特点 在 于 整合 利用 巴 氏 系数 、Jaccard 和 Pearson 
相关 系数 互相 弥补 其 缺陷 ,完美 诠释 两 个 用 户 之 间 的 相似 度 ; 即使 没有 一 个 共同 
评分 ,也 可 以 计算 两 个 用 户 ( 项 目 ) 之 间 的 相似 度 ; 计算 相似 度 时 利用 用 户 对 项 目 
的 所 有 评分 ,不 会 造成 资源 浪费 ; 多 方面 考虑 可 能 影响 用 户 之 间 相 似 度 的 因素 ; 考 























(2-10) 


loctru «rj 











28 d| 机 器 学 习 算 法 实践 一 一 推荐 系统 的 协同 过 滤 理 论 及 其 应 用 


虑 用 户 评分 的 全 局 相似 度 和 局 部 相似 度 。 
2.3.3 BCCF 算法 描述 


在 基于 近邻 协同 过 滤 推 荐 算法 的 基础 上 ,利用 巴 氏 系数 改进 相似 度 计算 ,设计 
出 利用 巴 氏 系数 改进 相似 度 的 协同 过 滤 推 荐 算法 BCCF 流程 。 


算法 2-1 BCCF 算法 


输入 : 用 户 项 目的 评分 矩阵 RE Ak. 

输出 : 目标 用 户 a 对 未 知 项 目的 预测 评分 集 。 

算法 的 基本 流程 如 下 : 

步骤 1: 由 数据 集中 的 训练 集 得 到 用 户 一 项 目 评分 矩阵 Res. 

步骤 2: 用 式 (2-4) 计 算 用 户 u WAP v 的 全 局 相似 度 ( 当 uv 时令 sima (u,v) 二 0)。 

步骤 3: 利用 式 (2-7) 得 到 用 户 u 和 用 户 v 分 别 评价 项 目的 评分 分 布 规律 ( 当 uv 时令 
BC(u,v) —0), 

步骤 4: 利用 步骤 3 的 计算 结果 ,并 通过 式 (2-9) 计 算 用 户 w 和 用 户 v 的 局 部 相似 度 ( 当 
u=} simo (usv) =0). 

步骤 5: 根据 步骤 3 和 4 得 到 的 全 局 相似 度 和 局 部 相似 度 利 用 式 (2-11) 进 行 融合 ,形成 
最 终 的 相似 度 。 

步骤 6: 利用 步骤 5 计算 任意 两 个 用 户 之 间 的 最 终 相 似 度 ,形成 相似 度 和 矩阵 ,然后 将 目标 
用 户 u 与 其 他 用 户 vw 之 间 的 最 终 相似 度 递减 排序 {sim(u,w ) 二 sim(uyu ) 7 777 simCu Vn) } > 
选择 相似 度 排序 中 前 & 个 用 户 作为 目标 用 户 u 的 最 近邻 居 , 个 最 近邻 居 用 户 构成 目标 用 户 
u 的 最 近邻 居 集 合 玫 一 {w vemm) 

步骤 7: 根据 步骤 6 计算 得 到 目标 用 户 ce 的 最 近邻 居 集 合 L ,最 近邻 居 用 户 对 未 知 项 目 i 
的 评分 通过 加 权 平 均 求 和 得 到 目标 用 户 a 对 该 项 目的 预测 评分 P,,; ,如 式 (2-12) 所 示 。 








DD [simCuso (rai — re) ] 


Pu = += 
S sim(u.v) 


v=1 


(2-12) 





算法 结束 


2.4 实验 与 分 析 


2.4.1 数据 集 
为 了 检验 提出 方法 的 有 效 性 ,分别 在 Movielens 100K 和 Movielens 1M 数据 
集 上 进行 验证 ,数据 集 的 具体 参数 如 表 2-1 所 列 。 
表 2-1 实验 数据 集 的 具体 参数 


名 称 用 P 数 项 目 数 评分 总 数 hi mt E 
Movielens_100K 943 1682 10° 93.7% 
Movielens_1M 6040 3706 108 95.81% 
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实验 环境 : Windows 7 操作 系统 ,4GB 内 存 , Intel (R) Core (TM) i3-4150 
CPU3. 5GHz 开发 工具 使 用 Matlab 2013b。 
2.4.2 评价 标准 
本 书 采 用 MAE 和 RMSE 作为 度量 标准 。MAE 用 来 衡量 推荐 的 精确 率 ,能 很 
好 地 反映 预测 值 误 差 的 实际 情况 。 设 在 训练 集 上 得 到 用 户 的 预测 评分 集合 为 
{Busi s Paso opus，"… ,Pun)， 用 户 实际 评分 集合 为 {ri eru Tu ttt erus) ，, 则 平均 绝对 
误差 MAE 定义 如 式 (2-13) 所 示 。 
Diesen | ri — Pui | 
N 
RP: r AP w 对 项 目 i 的 真实 评分 ; 
Pui 一 一 用 户 u 对 项 目 i 的 预测 评分 ; 
NN 一 一 测试 集中 用 户 评 分 的 个 数 。 
通过 计算 用 户 的 预测 评分 和 实际 评分 之 间 的 偏差 来 度量 算法 预测 的 准确 性 ， 
MAE 值 越 小 , 则 预测 评分 与 实际 评分 越 接 近 , 精 确 度 越 高 。 
均 方 根 误差 RMSE 定义 如 式 (2-14) 所 示 。 


MAE = (2-13) 


(2-14) 


RMSE 同样 用 来 衡量 推荐 的 精确 率 ,RMSE 更 侧重 于 预测 评分 与 实际 评分 差 
值 的 绝对 值 ,相对 MAE 加 大 了 惩罚 力度 ,RMSE 值 越 小 , 则 MAE 值 越 小 ,推荐 精 
确 度 越 高 。 


2.4.3 实验 结果 与 分 析 


本 实验 随机 将 Movielens 数据 集 按 8 : 2 比例 分 为 训练 集 和 测试 集 ,并 进行 10 
次 交叉 实验 求 得 平均 值 作为 最 终结 果 。 

1. 在 Movielens_100K 数据 集 上 传统 相似 度 比 较 

为 了 验证 和 评估 本 书 提出 的 基于 巴 氏 系数 相似 度 对 于 邻居 数目 的 变化 情况 ， 
将 巴 式 系数 相似 度 与 传统 相似 度 的 MAE 进行 比较 ,如 图 2-1 所 示 。 

从 图 2-1 可 以 看 出 , 当 邻 居 数 目 & 在 5 一 30 变化 时 ,比较 Pearson 相关 系数 、 
Jaccard 相似 度 的 MAE fË. Jaccard 相似 度 在 全 局 上 计算 共同 评分 所 占 比重 ,由 巴 
氏 系 数 取 得 评分 分 布 并 结合 Pearson 相关 系数 在 局 部 上 得 到 评分 之 间 的 相似 度 ， 
由 全 部 和 局 部 相似 度 得 到 巴 氏 系数 相似 度 。 从 图 2-1 中 可 以 看 出 , 随 着 用 户 邻 居 
数目 的 增 大 ,本 书 提出 的 BCCF 算法 其 MAE 值 总 体 趋 于 减少 , 当 邻 居 数 达到 30 
时 MAE 值 基 本 稳定 ; 相对 于 传统 的 Jaccard 和 Pearson 相关 系数 计算 方法 ,BCCF 
算法 的 MAE 值 最 低 且 相对 稳定 。 
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用 户 邻 居 数 目 /个 
图 2-1 巴 式 系数 相似 度 与 传统 相似 度 的 MAE 比较 


2. 在 Movielens 100K 数据 集 上 不 同 算法 之 间 对 比 

为 了 验证 同一 数据 集 上 不 同 算法 之 间 MAE 和 RMSE 的 变化 对 比 情 况 , 如 
图 2-2 和 图 2-3 所 示 分 别 为 Movielens_100K 数据 集 上 3 种 算法 的 MAE 对 比 和 
Movielens 100K 数据 集 上 3 种 算法 的 RMSE 对 比 , 实 验 中 最 近邻 居 数 分 别 取 
5、10、15、20、25 和 30, 将 巴 氏 系数 相似 度 作为 算法 的 相似 度 计 算 方 法 ,本 章 提出 的 
BCCF 算法 分 别 与 文献 L[7] 中 提出 的 改进 相似 度 算 法 (JPCC) .文献 [8] 中 提出 的 改 
进 算法 (JMSD) 在 Movielens_100K 数据 集 上 进行 MAE 和 RMSE 值 对 比 。 
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图 2-2 Movielens 100K 数据 集 上 3 种 算法 的 MAE 对 比 





由 图 2-2 和 图 2-3 可 以 看 出 ,在 Movielens_100K 数据 集 上 改进 算法 BCCF 与 
传统 的 JPCC 算法 相 比 MAE 在 趋 于 稳定 状态 下 降低 了 6%,RMSE 降低 了 2%; 
比 JMSD 算法 相 比 MAE 在 趋 于 稳定 状态 下 降低 了 10%,RMSE 降低 了 5%。 在 
Movielens_100K 数据 集 上 BCCF 算法 的 精确 性 比 上 述 所 参照 的 经 典 算法 的 精确 
度 有 所 提高 ,从 一 个 侧面 说 明了 在 该 数据 集中 实际 存在 着 用 户 对 项 目的 共同 评分 
很 少 的 情况 下 进行 优化 的 方案 , 即 采 用 巴 氏 系数 进行 用 户 间 所 有 的 评分 能 够 进 一 
步 提 高 算法 的 精度 。 
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图 2-3 Movielens_100K 数据 集 上 3 种 算法 的 RMSE 对 比 


3. 在 Movielens_1M 数据 集 上 不 同 算法 之 间 对 比 

本 节 实 验 中 最 近邻 居 数 & 为 5 一 30, 将 巴 氏 系数 改进 相似 度 作 为 算法 的 相似 度 
计算 方法 。 如 图 2-4 所 示 为 Movielens_1M 数据 集 上 3 种 算法 的 MAE 对 比 , 图 2-5 所 
示 为 Movielens_1M 数据 集 上 3 种 算法 的 RMSE 对 比 , 并 将 本 章 提 出 的 BCCF 算法 
分 别 与 JPCC 算法 JMSD 算法 进行 了 MAE 和 RMSE 值 对 比 。 
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图 2-4 Movielens 1M 数据 集 上 3 种 算法 的 MAE 对 比 
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图 2-5 Movielens_1M 数据 集 上 3 种 算法 的 RMSE 对 比 
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由 图 2-4 和 图 2-5 可 以 看 出 ,在 Movielens_1M 数据 集 上 改进 算法 BCCF 与 传 
统 的 JPCC 算法 相 比 在 趋 于 稳定 状态 下 MAE 降低 了 20% ,RMSE 降低 了 17%, 比 
JMSD 算法 相 比 在 趋 于 稳定 状态 下 MAE 降低 了 10%. RMSE 降低 了 496. HF 
RMSE 和 MAE 值 越 小 则 推荐 精度 越 高 ,上 且 在 Movielens 1M 数据 集 上 BCCF 算法 
的 RMSE 和 MAE 值 比 在 Movielens 100K 数据 集 上 实验 结果 更 小 ,说 明 数 据 集 越 
Wii: BCCF 算法 的 MAE 和 RMSE 性 能 越 好 ,说 明 本 书 提出 的 巴 氏 系数 改进 相 
似 度 的 协同 过 滤 推 荐 算法 能 有 效 缓解 评分 数据 稀 玖 问题 及 其 带 来 的 推荐 精度 
问题 。 


本 章 小 结 


本 章 提出 了 一 种 基于 巴 氏 系数 的 改进 相似 度 计 算 方法 ,利用 用 户 的 每 一 个 评 
分 ,考虑 了 用 户 评 分 的 全 局 和 局 部 相似 度 , 能 更 全 面 分 析 用 户 之 间 的 相似 度 , 并 在 
此 基础 上 设计 了 BCCF 算法 ,通过 与 传统 协同 过 滤 推 荐 算法 比较 ,实验 结果 表明 : 
BCCF 不 仅仅 依赖 于 两 个 用 户 的 共同 评分 ,而 是 利用 两 个 用 户 的 所 有 评分 ,现实 的 
系统 中 用 户 对 项 目的 共同 评分 很 少 甚至 没有 , 故 BCCF 有 很 强 的 实用 性 ; BCCF 合 
理 利用 用 户 的 每 一 个 评分 ,根据 用 户 的 评分 来 发 现 其 内 在 的 相关 性 ; BCCF 更 适用 
于 评分 矩阵 稀 疏 的 数据 集 。 考 虑 用 户 的 所 有 评分 ,造成 计算 相似 度 时 其 时 间 复 杂 
度 增 加 ,对 巴 氏 系数 相似 度 计算 进行 优化 ,并 优化 巴 氏 系数 相似 度 中 局 部 相似 度 信 
息 量 计算 部 分 ,找到 能 降低 其 时 间 复 杂 度 的 方法 ,进一步 提高 算法 性 能 。 
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针对 传统 协同 过 滤 推 荐 算法 不 能 及 时 反映 用 户 的 兴趣 变化 .时 效 性 不 足 导致 
推荐 精度 不 高 的 问题 ,提出 一 种 基于 用 户 兴趣 和 项 目 属性 的 协同 过 滤 推荐 算法 。 
在 传统 协同 过 滤 基 础 上 综合 考虑 评分 时 间 、 相 似 度 以 及 项 目 属性 等 因素 ,首先 在 计 
算 相似 度 过 程 中 加 入 基于 时 间 的 用 户 兴 趣 度 权重 函数 ,然后 再 与 项 目 属 性 相似 度 
进行 融合 ,最 后 进行 项 目 预 测 与 推荐 。 在 Movielens 数据 集 上 的 实验 结果 表明 ,所 
提出 的 算法 与 已 有 的 经 典 算法 相 比 ,平均 绝对 误差 降低 了 3% 一 6%, 有 效 提高 了 
推荐 的 准确 性 。 


3.1 引言 


个 性 化 推荐 是 从 海量 数据 中 挖掘 出 有 用 信息 的 一 种 技术 ,协同 过 滤 是 其 应 用 
最 广泛 .最 成 功 的 推荐 算法 之 一 ,通过 收集 和 分 析 用 户 的 信息 数据 来 学 习 用 户 的 兴 
趣 偏好 和 行为 模式 ,从 而 为 用 户 推荐 所 需要 的 信息 或 商品 。 

传统 的 协同 过 滤 推 荐 算法 忽略 了 随 着 时 间 变 化 而 用 户 的 兴趣 也 在 不 断 发 生变 
化 的 问题 , 即 存在 用 户 兴 趣 漂 移 现 象 。 用 户 的 兴趣 偏好 不 但 范围 广泛 ,而 且 实 时 变 
化 。 例 如 ,一 个 孩子 在 几 岁 时 可 能 对 动画 片 感 兴趣 ,青春 期 可 能 对 浪漫 爱情 片 感 兴 
趣 ,随后 有 可 能 对 文艺 片 感 兴趣 ,再 过 几 年 可 能 对 剧情 片 感 兴趣 ,等 等 。 随 着 时 间 
推移 ,用 户 的 关注 点 在 不 断 变化 ,如 何 捕获 这 一 动态 的 时 间 效 应 是 个 难题 。 

通常 将 时 间 窗 作为 判断 用 户 兴 趣 变化 的 一 种 表征 方式 ,采用 加 权 处 理 的 方法 ， 
来 提高 推荐 质量 。 文 献 [1] 通 过 对 心理 遗忘 曲线 拟 合 出 用 户 兴趣 权重 函数 ,提出 基 
于 时 间 窗 的 改进 协同 过 滤 推 荐 算法 ,从 而 追踪 和 学 习 用 户 的 兴趣 偏好 ; 文献 [2] 一 
[4] 提 出 基于 评价 时 间 数 据 权 重 的 用 户 兴趣 度量 函数 ,使 得 用 户 最 可 能 感 兴趣 近期 
访问 过 的 资源 。 这 些 方法 在 相似 度 度量 过 程 中 加 入 了 时 间 因 子 , 从 一 定 程度 上 解 
决 了 用 户 兴 趣 漂移 问题 ,但 是 忽略 了 不 同 对 象 的 类 别 属性 等 特征 信息 ,这 在 一 定 程 
度 上 也 会 影响 最 终 的 推荐 质量 。 

针对 这 一 问题 ,本 章 提 出 了 一 种 基于 用 户 兴 趣 和 项 目 属性 的 协同 过 滤 推 荐 算 
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法 ,在 传统 的 用 户 一 项 目 评分 矩阵 基础 上 综合 考虑 用 户 偏好 、 评 分 时 间 以 及 项 目 属 
性 特征 等 因素 , 先 在 计算 相似 度 过 程 中 加 入 时 间 逻 辑 性 因素 ,再 与 项 目 属 性 相似 度 
进行 融合 ,明确 用 户 对 项 目 中 各 个 属性 的 偏好 程度 ,更 能 体现 出 用 户 的 行为 需求 。 


3.2 相关 工作 


提供 个 性 化 推荐 服务 已 经 成 为 各 大 电子 商务 网 站 和 社交 媒体 的 核心 竞争 力 所 
在 ,如 何 实 时 根据 用 户 的 浏览 和 购买 行为 为 其 推荐 更 加 符合 用 户 偏好 的 项 目 , 即 在 
正确 的 时 间 推 荐 合适 的 项 目 ,是 目前 推荐 系统 面临 的 一 大 挑战 。 在 信息 飞速 发 展 
的 当代 ,用 户 兴趣 和 信息 话题 的 流行 转移 速度 也 非常 快 。 文 献 L[5,6] 提 出 了 一 个 实 
时 的 在 线 推荐 系统 一 一 TencentRec, 并 在 此 系统 上 部 署 一 系列 的 应 用 ,每 天 为 
10 亿 用 户 根据 其 兴趣 爱好 实时 推荐 话题 ,在 实践 中 观察 TencentRec 的 性 能 ; 并 在 
此 系统 上 提出 了 一 个 基于 项 目的 可 扩展 协同 过 滤 推 荐 算法 ,处 理 隐 式 反馈 问题 , 通 
过 增 量 更 新 和 实时 修剪 以 减少 计算 成 本 ,对 数据 进行 实时 采集 和 处 理 , 可 以 随时 捕 
捉 用 户 的 兴趣 ,提高 推荐 质量 。 文 献 [7] 提 出 了 一 种 基于 空间 正则 化 和 突 发 加 权 平 
滑 的 混合 模型 推荐 算法 ,利用 正则 化 框架 发 现 社交 网 络 中 的 空间 信息 以 及 在 时 间 
轴 上 采用 突 发 加 权 平 滑 方 案 发 现 的 时 变 信息 ,实验 结果 表明 所 提出 的 混合 模型 能 
够 在 单一 的 检测 过 程 中 区 别 时 变 话题 和 稳定 话题 ,从 而 可 以 针对 用 户 不 同 的 兴趣 
分 别 推荐 话题 。 此 算法 只 适用 于 新 闻 类 信息 网 站 ,针对 目前 流行 的 社交 媒体 平台 ， 
文献 [8j 设 计 了 一 个 潜在 的 类 统计 混合 模型 , 称 为 时 间 上 下 文 感知 混合 模型 
(TCAM) ,TCAM 同时 根据 用 户 内 在 兴趣 相关 话题 和 时 间 上 下 文 相 关 话 题 这 两 个 
因素 的 影响 对 用 户 行为 建 模 ; 为 了 进一步 提高 TCAM 算法 的 性 能 ,提出 项 目 加 权 
方法 使 TCAM 更 好 地 为 用 户 推 荐 其 偏好 的 项 目 。 文 献 [9] 提 出 了 一 种 利用 人 类 行 
为 对 信息 过 滤 的 协同 过 滤 推 荐 算法 ,与 传统 的 协同 过 滤 推 荐 算法 相 比 推荐 精度 得 
到 了 很 大 提高 ,同时 改善 了 推荐 的 新 颖 性 和 多 样 性 。 上 述 研 究 在 计算 相似 度 时 加 
入 时 间 因 素 ,但 是 没有 考虑 项 目 特征 属性 问题 ,为 此 本 书 提出 一 种 基于 用 户 兴趣 和 
项 目 属性 的 协同 过 滤 推 荐 算法 ,在 计算 相似 度 时 不 单单 考虑 用 户 兴趣 而 且 考 虑 项 
目 本 身 的 属性 特征 ,提高 算法 的 推荐 精度 。 

时 间 是 一 种 重要 的 上 下 文 信息 ,对 用 户 兴 趣 偏 好 有 着 深入 的 影响 。 本 书 以 
Movielens 数据 集 为 例 (1997 4E 9 月 一 1998 年 4 月 ,以 月 为 单位 ) ,分 析 了 3 种 不 同 
类 型 影片 观众 人 次 比例 随时 间 的 变化 情况 ,如 图 3-1 所 示 为 3 种 不 同类 型 影片 月 
观众 人 次 比例 走势 图 。 

图 3-1 中 Iteml 属于 喜剧 动画 片 ,Item50 属于 战争 科幻 动作 片 ,Item181 属于 
浪漫 喜剧 片 。 从 图 3-1 可 以 看 出 ,不 同类 型 影片 , 随 着 时 间 的 变化 ,影片 受 欢迎 的 
程度 发 生 改 变 , 观 影 人 次 也 相应 发 生变 化 。 不 管 是 属于 哪 种 类 别 的 电影 ,其 观众 人 
次 比例 随时 间 的 推移 都 在 逐渐 下 降 , 其 规律 大 体 上 与 心理 学 上 的 遗忘 曲线 相似 : 
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图 3-1 3 种 不 同类 型 影片 月 观众 人 次 比例 走势 图 


电影 刚 上 映 时 关注 的 观众 比较 多 , 随 着 时 间 的 推移 观众 人 次 慢 慢 下 降 , 直 到 被 人 们 
所 遗忘 。 这 也 符合 Ebbinghaus 遗忘 曲线 的 规律 , 即 人 类 记忆 能 力 随时 间 的 变化 而 
降低 。 

传统 的 协同 过 滤 推 荐 算法 分 为 输入 数据 .寻找 最 近邻 居 集 合 和 预测 推荐 3 步 。 
寻找 最 近邻 居 集 合 是 协同 过 滤 推 荐 算法 中 关键 的 一 步 , 其 结果 直接 影响 推荐 的 准 
确 度 。 寻 找 最 近邻 居 集 合 可 通过 计算 相似 度 方 法 实现 ,常用 的 相似 度 度 量 方法 有 
余弦 相似 度 ,调整 余弦 相似 度 和 Pearson 相关 相似 度 。 


3.3 基于 用 户 兴 趣 和 项 目 属性 的 协同 过 滤 推 荐 算法 


3.3.1 基于 时 间 的 用 户 兴趣 度 权 重 


本 章 采用 拟 合 的 遗忘 曲线 对 项 目 评分 进行 时 间 加 权 , 离 采样 时 间 越 近 的 评分 
赋予 较 大 的 权 值 ,反之 则 赋予 较 小 的 权 值 ,以 此 来 模拟 用 户 的 兴趣 爱好 随 着 时 间 而 
不 断 变 化 。 因 此 ,可 以 根据 遗忘 曲线 定义 指数 衰减 函数 表示 用 户 兴 趣 的 变化 ,基于 
时 间 的 用 户 兴趣 度 权重 函数 如 式 (3-1) 所 示 。 


Tui —to 


w,—e T (3-1) 
式 中 ; 心 一 一 用 户 x 对 项 目 ; 的 评分 时 间 ; 
to 一 一 目标 用 户 的 采样 时 间 ; 
T 一 一 整个 数据 集 的 时 间 跨 度 ( 结 束 时 间 一 开始 时 间 ) 。 
本 章 以 Pearson 相关 相似 度 作 为 相似 度 计 算 公 式 , 并 将 基于 时 间 的 用 户 兴趣 
度 权 重 函 数 引 入 相似 度 计算 公 式 中 ,基于 用 户 兴趣 度 权 重 的 Pearson 相关 相似 度 
计算 方法 如 式 (3-2) 所 示 。 











Ņ ww, Crai BJ» 


IA 
3 3 

> (rei — ri)” > Gag? 
‘EB ce I; 


(3-2) 





simCG.j) = 
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SP: rai HP c 对 项 目 i 的 评分 ; 
Tej JAP c 对 项 目 7 的 评分 ; 





项 目 i 的 平均 评分 ; 
JH j 的 平均 评分 。 


3.3.2 改进 相似 度 计算 


加 入 兴趣 度 权 重 能 够 有 效 地 找 出 用 户 的 喜好 范围 。 为 了 更 好 地 进行 推荐 服 
务 ,需要 找 出 用 户 偏 好 的 特征 属性 ,避免 把 一 个 用 户 不 喜欢 的 影片 当成 是 用 户 喜好 
的 影片 进行 推荐 。 在 考虑 时 间 效 应 的 基础 上 计算 出 用 户 评 分 与 项 目 属性 之 间 的 关 
系 , 发 现 用 户 对 于 项 目 中 各 个 属性 的 喜好 程度 ,结合 基于 时 间 的 用 户 兴 趣 度 权重 和 
项 目 属性 能 够 明确 用 户 的 兴趣 偏好 ,准确 有 效 地 找 出 其 邻居 集合 。 

令 项 目 属性 的 集合 为 = Us bsla) EP d 为 类 别 属性 个 数 。 以 Movielens 
数据 集 为 例 : 数据 集中 的 电影 一 共有 18 个 类 别 属性 ,分 别 为 {unknown，Action， 
Adventure,…，Western)。 项 目 属性 特征 可 以 用 一 个 nxXd 的 项 目 属性 矩阵 G,xs 来 计 
算 , 其 中 为 项 目 个 数 ,gi 为 0 时 代表 项 目 i 不 具有 这 个 属性 ,gi 为 1 时 代表 项 目 i 具 
有 该 属性 。 项 目的 特征 属性 相似 度 计算 方法 如 式 (3-3) 所 示 。 


Ti 





Tj 





Ci * ja) 
Clair lela UAH j lel ja =i =J 
AP: i 一 一 项 目 i 的 属性 集合 ; 
ji SHA j 的 属性 集合 。 
项 目 之 间 相 似 度 不 能 单一 通过 用 户 对 项 目的 评分 来 计算 ,还 要 考虑 项 目 与 项 
目 之 间 的 相关 相似 度 ,采用 算术 加 权 平 均 ,综合 考虑 项 目的 特征 属性 相似 度 和 评分 
相似 度 ,获得 更 全 面 的 相似 度 度量 模型 ,融合 的 相似 度 计算 方法 如 式 (3-4) 所 示 。 
sim(i,7) = y X EsimG@.j) + (1 — y) X sim(i,)) (3-4) 
式 中 : 7 一 一 平衡 因子 用 作协 调 两 方面 相似 度 度 量 的 结果 ,0 二 y=1。 
7 在 L0,1] 中 取 一 系列 值 ,观察 不 同 y 值 对 推荐 准确 度 的 影响 ,选择 合适 的 y 
值 将 两 种 相似 度 进行 融合 ,提高 推荐 准确 率 。 


3.3.3 ”加 权 预 测评 分 


由 相似 度 计算 得 到 最 近邻 居 集合 后 ,考虑 时 间 对 预测 值 的 影响 ,用 户 现在 的 行 
为 应 该 和 用 户 最 近 的 行为 关系 更 大 。 将 基于 时 间 的 用 户 兴 趣 度 权 重 w, 加 入 到 预 
测评 分 中 ,其 计算 方法 如 式 (3-5) 所 示 。 

m MIsimG.D(r; X w — 173) J 
Pa; = ri +4 - (3-5) 
P simG.j) 


式 中 : sim(i,j) 一 一 目标 项 目 i 与 最 近邻 居 项 目 j 的 相似 度 度量 ; 


(3=3) 





Esim(i,j) = 
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re 一 一 用 户 c 对 项 目 j 的 评分 ; 
一 一 项 目 i 的 平均 评分 ; 
n —3HB j 的 平均 评分 。 





为 了 有 效 计 算出 用 户 的 当前 兴趣 ,改进 的 预测 评分 用 ve, 赋予 评分 矩阵 中 每 个 
评分 一 个 权重 , 即 用 户 最 近 数 据 贡 献 度 更 大 , 占 较 大 的 权重 ,反之 亦 然 。 


3.3.4 算法 步 又 


在 基于 近邻 协同 过 滤 推 荐 算法 的 基础 上 ,在 计算 相似 度 过 程 中 加 入 基于 时 间 
的 用 户 兴趣 度 权重 函数 ,然后 再 与 项 目 属性 相似 度 进行 融合 ,最 后 进行 项 目 预测 与 
推荐 。 基 于 用 户 兴趣 和 项 目 属性 的 协同 过 滤 推荐 算法 流程 如 算法 3-1 所 示 。 


算法 3-1 基于 用 户 兴趣 和 项 目 属性 的 协同 过 滤 推 荐 算法 


输入 : 数据 集中 的 一 对 训练 集 和 测试 集 , 最 近邻 居 个 数 neighbor_num, 平 衡 参 数 y 。 
输出 : 用 户 c 对 测试 集中 项 目 i 的 预测 评分 。 
算法 的 基本 流程 如 下 : 








步骤 1. 由 训练 集 得 到 用 户 一 项 目 评分 矩阵 Raen MAPE RE Taen Win: 用 户 1 对 项 
H 1 的 评分 为 5 且 评 分 时 间 为 874 965 758, 则 在 评分 矩阵 Russ P ria m5 ERRARE Thay 中 
11,1 =874 965 758。 

步骤 2: 利用 用 户 兴 趣 度 权重 函数 w, ,计算 目标 用 户 的 兴趣 度 权 重 。 

步骤 3: 用 式 (3-5) 计 算 项 目 i 和 项 目 j 的 评分 相似 度 ( 当 j==i 时 令 simG.j)=0), 

步骤 4: 通过 式 (3-6) 计 算 项 目 ; 和 项 目 7 的 特征 属性 相似 度 ( 当 j— i 时令 simG.j)=0). 

步骤 5: 利用 式 (3-7) 进 行 融 合 对 根据 步骤 3 和 4 得 到 的 评分 相似 度 和 项 目 属性 相似 度 ， 
形成 最 终 的 相似 度 矩 阵 。 

步骤 6: 根据 步骤 5 计算 得 到 的 相似 度 矩 阵 来 寻找 目标 项 目 ; 的 最 近邻 居 ,邻居 关系 的 计 
算是 为 了 对 每 一 个 项 目 i 找到 一 个 邻居 集合 Neighbor, = (i ja ja) «i € Neighbor, 将 相似 
JE (simG ji) >sim Gi j22 27 * 77 sim Gi jm) 3É WLHEFE ; 8 48 Bi c ir iE 89 4B JE 7 neighbor_ 
num. yë f$ simCi .j FEX fi] lij neighbor num 个 作为 项 目 i 最 近邻 居 。 

步骤 7: 根据 步骤 6 得 到 的 目标 项 目 i 的 最 近邻 居 集 合 Neighbor; MIESE RE R mxn PAY 
评分 ,依据 式 (3-8) 利 用 用 户 c 对 项 目 i 的 最 近邻 居 评 分 来 预测 用 户 c 对 项 目 i 的 评分 。 

算法 结束 


3.4 实验 结果 与 分 析 


3.4.1 数据 集 

本 章 选 用 MovieLens 数据 集 对 提出 的 算法 在 Matlab 中 进行 评估 测试 ,该 数据 集 
包含 943 个 用 户 对 1682 部 电影 连续 7 个 月 左右 的 评分 数据 ,评分 范围 是 1~5,1 表示 
“很 差 ”,5 表示 “很 好 ”。 整 个 数据 集 的 稀 朴 等 级 为 1 一 100 000/ (943X1682) 二 93.7%。 
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MovieLens 数据 集 提 供 5 组 随机 划分 的 训练 集 和 测试 集 ,实验 在 这 5 组 数据 
上 分 别 进行 ,最 终 实验 结果 为 这 5 次 结果 的 算术 平均 值 。 


3.4.2 评价 标准 
本 章 采 用 平均 绝对 误差 (Mean Absolute Error. MAE) 衡 量 推 荐 的 精确 率 , 能 
更 好 地 反映 预测 值 误 差 的 实际 情况 。 设 在 训练 集 上 得 到 用 户 的 预测 评分 集合 为 
{Pures Puz，pua，"…，pua}，, 用 户 实际 评分 集合 为 {ri ， Tuzo Tuas tts Ton} s MFE 
绝对 误差 MAE 定义 如 式 (3-6) 所 示 。 
> | rai — Pusi | 
MAE = MEME ZG (3-6) 
式 中 : NN 一 一 测试 集中 用 户 评分 的 个 数 ; 
bui MP u 对 第 i 个 项 目 在 训练 集 上 的 预测 评分 ; 
ru 一 一 用 户 u 对 第 i 个 项 目的 实际 评分 。 
MAE 通过 计算 用 户 的 预测 评分 和 实际 评分 之 间 的 偏差 来 度量 算法 预测 的 准 
确 性 。MAE 值 越 小 , 则 推荐 精确 度 越 高 。 


3.4.3 结果 分 析 


1. 相似 度 比较 
为 了 验证 本 书 提 出 的 算法 与 传统 相似 度 算 法 在 不 同 相 似 度 公式 中 的 推荐 效 
果 , 将 式 (3-2) 中 的 用 户 兴 趣 度 权 重 函 数 引 入 改进 Pearson 相似 度 .改进 余弦 相似 
度 和 改进 调整 余弦 相似 度 计 算 公 式 中 实现 3 种 改进 相似 度 与 传统 相似 度 的 MAE 
比较 ,如 图 3-2 所 示 为 3 种 改进 相似 度 与 传统 相似 度 的 MAE 比较 。 
一 一 改进 Pearson ”一 e 一 改进 余弦 一 一 改进 调整 余弦 
He Rh e e 一 一 调整 余弦 
09r 
0.88 - 
0.86 - 
0.84 - 
uj 
< 0.825 


= 0.8 F 

0.78 + lg, I qe 
0.76 - OF 
0.74 F 


0.72 








5 10 15 20 25 30 
最 近邻 居 数 目 
图 3-2 3 种 改进 相似 度 与 传统 相似 度 的 MAE 比较 


分 别 使 用 这 3 种 计算 方式 进行 MAE 对 比 ,从 图 3-2 中 可 以 看 出 ,不 论 选 用 何 
种 相似 度 计算 方式 ,在 任意 邻居 数 neighbor num 值 下 ,3 种 改进 的 相似 度 计 算 方 
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法 都 比 原始 的 计算 方法 取得 更 低 的 MAE 值 ,尤其 是 采用 Pearson 相似 度 计算 相似 
ERY MAE 值 最 小 ,从 而 也 验证 了 本 书 选用 Pearson 相似 度 方法 作为 相似 度 计算 的 
依据 ; 另外 ,改进 后 算法 的 MAE 明显 小 于 传统 协同 过 滤 推 荐 系统 ,说 明基 于 时 间 
的 用 户 兴趣 度 权 重 和 项 目 属性 对 推荐 系统 的 影响 比较 大 。 
2. 平衡 因子 y 对 MAE 的 影响 
实验 中 选择 最 近邻 居 数 neighbor_num= 25, 针 对 式 (3-7) ,在 其 他 参数 一 样 的 
情况 下 ,观察 不 同 平衡 因子 y 值 对 推荐 准确 度 的 影响 。 如 图 3-3 所 示 为 平衡 因子 y 
对 MAE 的 影响 。 通 过 实验 得 知 当 y==0. 15 时 MAE 值 最 小 ,此 时 不 但 考虑 了 项 目 
属性 还 考虑 了 时 间 对 相似 度 计算 的 影响 。 
0.84r 
0.82} 
0.80 


MAE 
eee 
M M M 
+ an oc 








图 3-3 平衡 因子 y 对 MAE 的 影响 


3. 不 同 算法 之 间 对 比 
实验 中 最 近邻 居 数 neighbor num 分 别 取 5,10,15,20,25 和 30, 根 据 实验 (2) 
中 设 定 最 优 平衡 因子 y = 0. 15 ,本 书 提出 的 基于 用 户 兴趣 和 项 目 属性 协同 过 滤 推 
荐 算法 (UIIP-CF) 分 别 与 传统 基于 项 目的 协同 过 滤 推 荐 算法 (ICF) ,文献 [9] 中 提 
出 的 改进 算法 (TDGS-CF) .文献 L[10] 中 提出 的 改进 算法 (WUCF) 进 行 的 MAE 对 
比 。 如 图 3-4 所 示 为 4 种 算法 的 MAE 对 比 图 。 
0.90 


0.88 
0.86 





—NH- ICF 
—e— TDGS-CF 
—&— WUCF 

一 “一 UIIP-CF 







MAE 
o 
2 
e 
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最 近邻 居 数 目 /个 


图 3-4 4 种 算法 的 MAE 对 比 图 
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由 图 3-4 可 以 看 出 ,改进 算法 的 MAE 与 传统 的 基于 项 目的 协同 过 滤 推 荐 算法 
相 比 ,MAE 降低 了 10%, 比 TDGS-CF 算法 MAE 降低 了 6%, 比 WUCF 算法 
MAE 降低 了 3%. HF MAE 值 越 小 则 推荐 精度 越 高 ,UIIP-CF 算法 的 精确 性 比 
上 述 推荐 算法 都 高 ,这 也 正 说 明了 基于 时 间 的 用 户 兴趣 权重 和 项 目 属性 在 推荐 算 
法 中 起 着 比较 关键 的 作用 。 


本 章 小 结 


本 章 分 析 了 用 户 的 兴趣 随时 间 的 变化 而 变化 的 规律 ,在 此 基础 上 提出 了 一 种 
基于 用 户 兴 趣 和 项 目 属 性 的 协同 过 滤 推 荐 算法 。 实 验 表明 ,改进 的 协同 过 滤 推 荐 
算法 不 仅 有 效 提高 了 推荐 系统 的 推荐 精度 ,而 且 在 一 定 程度 上 解决 了 协同 过 滤 推 
荐 系统 的 用 户 兴 趣 漂移 问题 。 改 进 算法 中 采用 实验 法 得 到 最 佳 平衡 因子 进行 相似 
度 融 合 以 达到 解决 用 户 兴 趣 漂移 的 目的 。 
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第 三 篇 ”基于 矩阵 分 解 的 协同 
过 滤 推 荐 算法 


和 矩阵 分 解 模 型 最 早 由 Yehuda Koren 于 2008 年 提出 ,主要 目的 是 找 
到 两 个 低 维 的 敌阵 ,它们 相 乘 之 后 得 到 的 矩阵 的 近似 值 , 与 评分 矩阵 中 
原 有 值 的 位 置 中 的 值 尽 可 能 接近 。 近 年 来 ,学 术 界 的 研究 和 工业 界 的 应 
用 结果 表明 ,在 处 理 高 维 数据 方面 ,个 性 化 推荐 中 使 用 和 王 阵 分 解 模型 要 
明显 优 于 传统 的 基于 邻 域 的 协同 过 滤 ( 又 称 基 于 内 存 或 者 记忆 的 协同 过 
滤 ) 方 法 ,如 User-CF,Item-CF 等 ,这 也 使 得 矩阵 分 解 成 为 目前 个 性 化 
推荐 研究 领域 中 的 主流 模型 。 国 此 ,国内 外 学 者 尝试 采用 各 种 方法 来 进 
行 对 稀 朴 矩阵 进行 降 维 ,常用 的 降 维 技术 有 SVD (Singular Value 
Decomposition) , 4E EE D fi A 3E 4E PE > SR AE f AE TED RA JE Bh EHR 
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针对 推荐 系统 在 数据 稀 玖 情况 下 推荐 质量 不 高 的 问题 ,提出 将 奇异 值 分 解 
(Singular Value Decomposition,SVD) 技 术 和 信任 模型 相 融 合 的 协同 过 滤 推 荐 算 
ik. HH SVD 降 维 技术 得 到 项 目的 隐 式 特征 空间 。 然 后 用 改进 的 余弦 相似 
度 计算 项 目 间 相似 度 , 根 据 近邻 (k-Nearest Neighbor,k-NN) 算 法 得 到 第 一 阶段 
最 近邻 居 集 。 接 着 引入 项 目 信任 因子 ,建立 信任 模型 并 融入 相似 度 空间 中 ,进行 第 
二 阶段 & 近 邻 选 择 , 从 而 完成 预测 推荐 。 最 后 在 MovieLens 数据 集 与 传统 的 算法 
进行 实验 对 比 ,本 章 提 出 的 算法 其 标准 误差 RMSE(Root Mean Squared Error) 的 
精度 提高 了 0.5394. 


4.1 引言 


个 性 化 推荐 技术 是 解决 信息 过 载 问题 的 有 效 手 段 。 协 同 过 滤 是 推荐 系统 中 运用 
最 早 和 最 成 功 的 一 种 推荐 技术 之 一 ,其 原理 是 采用 最 近邻 居 技 术 ,根据 用 户 对 项 目的 
偏好 ,发 现 用 户 间或 项 目 间 的 相关 性 进行 推荐 。 实 际 操作 过 程 中 ,由 于 用 户 精 力 有 
限 , 造 成 大 量 项 目 未 得 到 用 户 的 评分 ,以 及 随 着 信息 技术 的 快速 发 展 ,用 户 和 项 目的 
数量 大 幅 增加 ,用 户 评价 过 的 项 目 占 所 有 项 目的 比例 很 小 ,因此 导致 评价 和 矩阵 极为 稀 
Dis ERRED F ,计算 用 户 或 项 目的 相似 度 并 不 准确 ,从 而 造成 推荐 质量 急剧 下 降 。 

针对 数据 稀疏 性 问题 , 常 采 用 的 处 理 方法 有 : 

CD 数据 平滑 技术 : 对 用 户 尚 未 评分 的 项 目 进行 缺 省 值 填充 ; 运用 其 他 用 户 
对 该 项 目的 评分 均值 来 填充 缺 省 值 ; 将 用 户 信息 聚 类 后 ,以 分 类 用 户 的 评分 来 填 
充 缺 省 值 。 

(2) 数据 降 维 技术 : 将 数据 从 高 维 降 到 低 维 空间 。 降 维 技术 主要 有 主 成 分 分 
析 (Principal Component Analysis, PCA) 和 奇异 值 分 解 (Singular Value 
Decomposition, SVD). SVD 是 一 种 有 效 的 数据 降 维 技术 ,并 有 着 自动 抽取 矩阵 重 
要 特征 的 能 力 。 文 献 L6] 将 SVD 技术 与 协同 过 滤 技 术 结 合 , 此 设想 在 Netflix Prize 
中 得 到 证 实 并 迅速 推广 。 在 文献 L6] 的 基础 上 ,加 入 用 户 和 项 目的 偏 置信 息 , 并 提 
出 用 户 一 项 目 特征 函数 ,提出 了 NSVD 和 NSVD2 算法 。 
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传统 的 协同 过 滤 推 荐 算法 只 考虑 用 户 或 项 目 间 的 相似 度 这 一 种 因素 ,而 在 基于 
信任 因子 的 协同 过 滤 推 荐 算法 中 ,用 户 或 项 目 间 的 信任 度 也 被 作为 一 个 重要 因素 ,并 
有 效 提高 了 算法 的 推荐 精度 。 文 献 L7] 提 出 了 一 种 数据 挖掘 算法 对 稀 玻 评分 矩阵 进行 
填充 ; 在 完整 的 填充 矩阵 上 计算 用 户 相似 性 ,并 引入 相似 性 信任 因子 ,已 取得 较 好 的 推 
荐 结果 。 文 献 [8] 提 出 基于 用 户 间 信任 因子 的 协同 过 滤 推 荐 算法 ,提高 了 推荐 的 精度 。 

针对 以 上 情况 ,本章 提出 将 SVD 技术 和 信任 模型 相 结 合 的 协同 过 滤 CFSVD- 
TF(Algorithm of Collaborative Filtering Based on SVD and Trust Factors) 算 法 。 
首先 运用 SVD 得 到 项 目的 隐 式 特征 空间 ,然后 用 调整 的 余弦 相似 度 计算 项 目 间 相 
似 度 ,生成 临时 邻居 集 ; 接着 引入 信任 因子 的 概念 ,建立 可 计算 的 信任 模型 并 融和 人 
到 相似 度 空 间 中 ,以 做 出 更 高 精度 推荐 预测 ; 最 后 在 MovieLens 数据 集 对 本 章 提 
出 的 算法 进行 验证 。 该 算法 不 仅 可 以 有 效 地 对 稀疏 矩阵 进行 降 维 ,而 且 改 变 传统 
的 基于 项 目的 协同 过 滤 推 荐 过 程 中 项 目 间 相 似 度 作为 唯一 决定 预测 结果 的 因素 ， 
并 证 明 项 目 间 的 信任 关系 也 是 影响 预测 评分 结果 的 重要 因素 。 


4.2 标注 和 相关 工作 


4.2.1 标注 
为 下 述 表述 方便 ,为 本 章 中 使 用 的 标注 做 统一 说 明 , 如 表 4-1 所 列 为 用 户 一 项 
目 评分 矩阵 表 , 用 一 个 m 用 户 和 nn 项 目的 评分 和 矩阵 及 来 标示 所 有 用 户 对 所 有 项 目 
的 评分 ,范围 是 [1,5j]。R= {rus} (1 二 wu 过 m,1 志 i 过 n) 的 值 由 式 (4-1) 求 出 。 
表 4-1 用 户 一 项 目 评分 矩阵 
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Tui? 评分 
R= (4-1) 
0. ”未 评分 


RP: ru J u 对 项 目 i 的 评分 ,如 果 用 户 未 对 项 目 i 评分 ,那么 值 为 0。 
4.2.2 奇异 值 分 解 


在 数据 挖掘 中 ,SVD 作为 一 种 矩阵 分 解 技术 ,通过 生成 一 个 低 秩 矩 阵 近 似 盘 
近 原 始 窍 阵 。 给 定 一 个 和 矩阵 , 则 A 的 奇异 值 分 解 定义 如 式 (4-1) 所 示 。 
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A=UxsSxXV (4-2) 
式 中 : UER xat 
VE Rias 
SE RRs 
矩阵 U 和 VV Jg iESEÓR PE. ELAB PER 904) 37g AA" FI ATA 的 特征 向 量 。r 为 
ERER 的 秩 ; o. AR 的 奇异 值 , 值 为 AA sk ATA 的 特征 值 的 平方 根 。 因 此 ,这 三 
个 和 矩 阵 的 有 效 维 数 分 别 是 mXrrXrnXr。 
SVD 可 以 提供 三 个 矩阵 相 乘 对 原始 矩阵 A 进行 最 优 的 近似 。 通 过 将 矩阵 
S 保留 第 & 个 最 大 的 奇异 值 进行 简化 得 到 新 的 对 角 和 矩阵 ,其 中 & 二 >。 然后 通过 删 
BRU FIL V. 的 相应 列 ,简化 后 的 矩阵 U 和 V. 表示 为 U 和 Vi, 如 式 (4-3) 所 示 。 
Aam 0, XS X Vi (4-3) 
这 是 最 接近 的 & 位 近似 原 和 矩阵 的 西 不 变 范 数 。 


4.2.3 计算 相似 度 


协同 过 滤 中 常 采用 计算 相似 度 的 方法 为 余弦 相似 度 和 改进 的 余弦 相似 度 。 
余弦 相似 度 如 式 (4-4) 所 示 。 


2 Tia X Tja 
sESj 





sim(i.j) = cos(1,J) = (4-4) 


XJ. = 
HX DT 





式 中 ; sim(i,j) 一 一 用 户 i,j 的 相似 度 ; 

I,J——H P! i,j 的 评分 向 量 ; 

Si,Sj 一 一 用 户 i,j 的 评分 项 目 集 ; 

Si 一 一 用 户 ; 和 j 共同 评分 的 项 目 集 合 ; 

Fiss 9 j,s HP isj 对 项 目 s 的 评分 。 

由 于 基于 余弦 方法 没有 考虑 不 同 用 户 打 分 的 严格 程度 ,可 能 有 的 用 户 偏向 于 
给 高 分 ,而 有 的 用 户 偏向 于 给 低 分 ,该 方法 通过 减 去 用 户 打 分 的 平均 值 消除 不 同 用 
户 打 分 习惯 的 影响 。 改 进 的 余弦 相似 度 如 式 (4-5) 所 示 。 
DD Grins — Rp (rj, — Ry) 


€ S, 


simG.j) = 一 (4-5) 


Pe — Ri)? iG, —R,)?) 
ses, ses, 


stb. Ry — 用户; 评分 的 平均 值 ; 
局 一 用 户 了 评分 的 平均 值 。 


4.3 SVD 和 信任 因子 相 结合 的 协同 过 滤 推 荐 算法 


传统 的 协同 过 滤 算 法 在 生成 最 近邻 居 集 和 产生 推荐 阶段 , 仅 将 用 户 或 项 目的 
相似 度 作为 影响 因素 。 而 在 现实 生活 中 ,人 们 不 仅 考虑 和 自己 有 相同 兴趣 的 用 户 
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或 相似 度 质 的 项 目 , 而 且 项 目 在 所 有 项 目 中 的 口碑 好 坏 也 影响 着 人 们 的 决策 , 即 项 
目 间 相 似 度 和 被 信任 程度 成 为 影响 预测 推荐 的 重要 因素 。 


4.3.1 项 目 特征 空间 


首先 将 原始 评分 矩阵 R 中 评分 值 为 零 的 项 使 用 相关 列 的 平均 值 来 蔡 代 ,然后 
将 矩阵 的 每 行规 范 化 到 相同 的 长 度 用 来 替代 Ru ,其 中 R, 是 相关 列 的 项 目的 平均 
评分 值 。 最 后 运用 SVD 分 解 技术 得 到 项 目 隐 式 特征 空间 。 


4.3.2 两 阶段 上 近邻 选择 


ENN 分 类 算法 是 数据 挖掘 分 类 技术 之 一 。 所 谓 k 近邻 算法 , 即 是 给 定 一 个 训 
练 数据 集 ,对 新 的 输入 实例 ,在 训练 数据 集中 找到 与 该 实例 最 邻近 的 & 个 实例 (也 
就 是 上 面 所 说 的 个 邻居 ) ,这 上 个 实例 的 多 数 属于 某 个 类 ,就 把 该 输入 实例 分 类 
到 这 个 类 中 。 本 章 提出 的 算法 采用 两 个 阶段 运用 ANN 算法 来 寻找 项 目的 最 近邻 
居 ,第 一 阶段 是 在 项 目 特征 空间 下 ,采用 改进 的 夹 角 余 弱 方 法 计算 得 到 项 目 相似 度 
和 矩阵 ,在 此 ,对 每 个 项 目 取 &A(& 王 10,20,30) 个 邻居 ,得 到 项 目 邻 居 群 Qi。 第 二 阶段 
是 在 将 项 目 信任 因子 融入 相似 度 空间 后 ,再 次 寻找 最 近邻 居 。 


4.3.3 信任 因子 


在 协同 过 滤 系 统 里 ,项 目 在 整个 用 户 一 项 目 评分 和 矩阵 中 被 信任 的 程度 称 为 信 
任 因 子 。 信 任 因 子 包 括 全 局 信任 (Global Trust) 和 局 部 信任 (Local Trust) 两 部 分 
内 容 。 
全 局 信任 : 单个 项 目 在 全 部 项 目 中 的 信誉 。 用 T, 表示 项 目 i 全 局 信任 , 且 
OKT: <1, Mh 4-6) HAR o 
— 2f1—1/In(f; +2)] X [1 — 1/In(q; 4- 32] 
2 — l/[InCf; +2) — 1/In(q; 4- 35 ] 
RP: f; 一 一 项 目 被 用 户 评 价 的 次 数 ; 
4 一 一 该 项 目 被 其 他 项 目 作 为 邻居 的 次 数 。 
局 部 信任 : 每 两 个 项 目 间 的 信任 值 , 若 两 个 项 目 间 相 似 度 越 高 , 则 两 个 项 目的 信 
任 程度 就 越 高 。 因 此 ,局 部 信任 由 全 局 信任 和 相似 度 两 个 因素 决定 。 结 合式 (4-5)、 
式 (4-6), 局 部 信任 如 式 (4-7) 所 示 。 


T(P.) = 





(4-6) 





Ti 





2 X sim(a,b) X T, 
sim(a.b) + T, 


sth; T,(P,) 一 一 项 目 4 对 项 目 a 的 局 部 信任 ; 
sim(a,0) 一 一 项 目 a MWH b 的 相似 度 ; 
T, 一 一 项 目 a 的 全 局 信任 。 
注意 ,项 目 a 与 项 目 6 之 间 和 项 目 6 与 项 目 a 的 相似 度 是 相等 的 , 即 sim(a,0) 一 
sim(b,a) ,而 项 目 a SHA b 之 间 和 项 目 6 与 项 目 a 之 间 的 局 部 信任 度 是 不 等 的 ， 


(4-7) 
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BUT, (PAT, CP). 
4.3.4 预测 评分 
预测 用 户 u 对 项 目 i 的 评分 如 式 (4-8) 所 示 。 
MIT X Gra tr) 
Pty: = t7—3 (4-8) 
23. EG; | 
k=1 


式 中 : /一 一 根据 二 NN 算法 得 到 的 项 目 i 的 邻居 数 ; 
在 通过 SVD 降 维 后 空间 As 下 ,用户 u 对 项 目 i 的 评分 值 ; 


用 户 的 评分 均值 。 


4.3.5 算法 


算法 基本 思想 : 首先 利用 奇异 值 分解 得 到 项 目 特征 空间 ,利用 改进 的 余弦 相 
似 度 计 算 项 目 间 相 似 度 ,然后 根据 -NN 算法 得 到 临时 邻居 集 , 在 此 基础 上 ,引入 
项 目的 信任 因子 。SVD 和 信任 因子 相 结合 的 协同 过 滤 推 荐 算法 (CFSVD-TF 算 
法 ) 流 程 如 算法 4-1 所 示 。 








Ke 





Tu 


算法 4-1 CESVD-TF 算法 

输入 : 评分 矩阵 R。 

输出 : 预测 矩阵 Rua. 

算法 的 基本 流程 : 

步骤 1. 填充 原始 矩阵 尽 并 且 规 范 化 得 到 Ru。 使 用 奇异 值 分 解 方法 分 解 Room 151g 
阵 U,S,V。 

步骤 2: 将 矩阵 S 进行 维 数 简化 到 k 维 ,得 到 矩阵 S, Ch <r. rank (Rom) = r)。 相 应 地 ， 
将 矩阵 U,V 进行 化 简 得 到 和 矩阵 Ui ,WwW。Ra=UXxSXxW。 计 算 S, 的 平方 根 得 到 矩阵 
VS, ,得 到 项 目的 隐 式 特征 空间 VSe X VE 。 

步骤 3: 在 项 目 特征 空间 下 ,使 用 式 (4-3) 计 算 项 目 i 和 项 目 j 的 相似 度 sim(i,7。 

步骤 4: 根据 &-NN 算法 , 设 定 k(4 二 20) 个 邻居 ,得 到 项 目 邻 居 群 Qi ,由 项 目 邻 居 群 Q; 得 
到 q; ,遍历 原始 矩阵 及 得 到 fi. 

步骤 5: 由 式 (4-6) 计 算 项 目的 全 局 信任 T; ,并 将 T; 填充 为 矩阵 ,使 用 式 (4-7) 计 算 项 目 
间 局 部 信任 。 

步骤 6: 根据 &-NN 算法 ,得 到 项 目的 最 近邻 居 集 。 

步骤 7: 由 式 (4-8) 进 行 预测 评分 。 

步骤 8: 根据 Top-N 方法 ,将 预测 评分 最 高 的 N 个 项 目 推荐 给 相应 的 用 户 。 

算法 结束 





CFSVD-TF 算法 利用 用 户 和 项 目 之 间 的 潜在 关系 达到 对 维 空间 的 简化 ,使 用 奇 
异 值 分 解 来 增加 数据 的 密度 ,将 项 目的 信任 因子 作为 权重 加 入 到 相似 度 计算 中 ,这 样 
不 仅 能 克服 数据 稀 疏 性 问题 ,还 能 避免 过 于 强调 相似 度 的 作用 ,提高 了 推荐 的 精度 。 
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4.4 实验 结果 与 分 析 


4.4.1 数据 集 和 实验 环境 


本 章 实验 采用 美国 Minnesota 大 学 的 MovieLens100k 数据 集 。 计 算 稀 玻 等 级 
值 如 式 (4-9) 所 示 。 
Na 








Su =l- Xan (4-9) 
式 中 : S. LI REI 
Nu 一 一 数据 集中 用 户 对 项 目的 评分 个 数 ， 
7 一 一 用 户 个 数 ; 
n 一 一 项 目 个 数 。 





实例 说 明 : 该 数据 集 包 括 943 位 用 户 对 1682 部 电影 的 100 000 个 评分 ,评分 
采用 5 分 制 , 取 1—5 的 整数 ,1 分 表示 用 户 认 为 该 部 影片 不 好 看 ,5 分 表示 用 户 认 
为 该 影片 非常 好 看 ,打分 越 高 说 明 用 户 越 喜欢 该 电影 。 

数据 中 已 经 划分 成 5 个 数据 集 Gw ~us) ,并 随机 抽取 80% 的 数据 作为 训练 集 ， 
20% 的 数据 作为 测试 集 ,采用 5 折 交 叉 法 进行 验证 。 

实验 采用 的 PC 配置 为 双核 3. 50GHz、 内 存 为 4GB, 操 作 系统 为 Windows 7。 
在 MATLAB R2014a 平台 上 实现 了 基于 项 目的 协同 过 滤 推 荐 算法 、 基 于 SVD 的 
协同 过 滤 推 荐 算法 和 基于 CFSVD-TF 算法 。 


4.4.2 评价 标准 


本 章 实验 采用 RMSE 作为 评价 标准 ,RMSE 通过 计算 预测 的 用 户 评 分 与 实际 的 
用 户 评分 之 间 的 偏差 来 度量 预测 的 准确 性 。 此 度量 方法 直观 、 严 谨 , 是 最 常用 的 一 种 
推荐 质量 度量 方法 。RMSE 值 越 小 ,表示 推荐 质量 越 高 。RMSE 计算 如 式 (4-10) 
所 示 。 





N (4-10) 


式 中 : {Pi,P,,…,Pw) 一 一 算法 对 NN 个 项 目 预 测 的 评分 集合 ; 
{ri sree TN，} 一 一 实际 评分 集合 。 


4.4.3. 实验 结果 分 析 


1. 相似 度 的 分 布 与 选取 
为 了 得 到 较 佳 的 实验 结果 .本 章 分 别 用 4. 2 节 中 余弦 相似 度 和 改进 的 余弦 相 
似 度 方法 计算 项 目 之 间 的 相似 度 , 两 种 相似 度 的 分 布 如 图 4-1 所 示 。 从 图 4-1 可 
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以 看 出 ,余弦 相似 度 分布 较 为 均匀 ,改进 的 余弦 相似 度 分 布 更 具 个 性 化 。 在 [0,1] 
范围 内 ,运用 余弦 相似 度 得 到 的 相似 度 值 分 布 在 [0. 0,0. 6] ,平均 达到 89. 10% ,分 
布 过 于 分 散 。 而 改进 的 余弦 相似 度 得 到 的 相似 度 值 主要 分 布 在 [0. 0,0. 4] ,平均 达 
到 80.15% ,因为 通过 项 目的 评分 值 减 去 用 户 评分 的 平均 值 ,均衡 了 用 户 的 评分 尺 
度 不 一 问题 ,更 真实 反映 出 项 目的 差异 特征 , 即 用 户 的 个 性 化 选择 。 所 以 ,根据 改 
进 的 余弦 相似 度 计算 方法 可 以 得 到 较 高 质量 的 推荐 。 基 于 以 上 分 析 , 本 章 采用 改 
进 的 余弦 相似 度 计算 方法 进行 度量 。 


500 000 
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450 000 





一 一 改进 的 余弦 相似 度 
400 000 





350 000 





300 000 





m 
ESI 
2250 000 





200 000 





150 000 





100 000 





50 000 











0 





01 02 03 04 05 06 07 08 09 | 
相似 度 


图 4-1 两 种 相似 度 的 分 布 


2. 全 局 信任 因子 的 分 布 与 分 析 

图 4-2 所 示 为 信任 因子 f; 的 分 布 ,在 MovieLens_100K 数据 集中 ,项 目 被 用 户 
评价 的 次 数 在 [0,500] 范 围 内 ,其 中 ,67. 84% 的 项 目 被 评价 次 数 在 [0,50] 区 间 中 ， 
剩余 的 项 目 在 其 他 区 间 都 有 分 布 ,说 明 信 任 因子 f 能 表示 出 单个 项 目 在 全 体 项 目 
中 个 性 化 的 特质 。 

图 4-3 所 示 为 信任 因子 g; 的 分 布 ,在 第 一 阶段 寻找 最 近邻 居 时 ,活动 的 项 目 作 
为 其 他 项 目的 邻居 次 数 分 布 在 [0,800] 范 围 内 。 在 [0,50] 区 间 内 , 当 开 取 10,20， 
30 时 ,项目 数目 依次 为 1603,1522,1469。 随 着 K 值 的 增 大 ,信任 因子 q: 的 分 布 变 
得 均匀 。 根 据 实验 的 最 终结 果 分 析 得 出 ,在 KK 二 20 时 ,RMSE 得 到 最 优 。 当 K= 
20 时 ,信任 因子 q: 的 分 布 范 围 在 [0,750], 将 近 10% 的 项 目 分 布 在 [50,750j] 的 不 同 
区 间 中 ,说 明 信 任 因子 q: 能 够 作为 全 局 信任 的 重要 因素 。 
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图 4-2 信任 因子 f; 的 分 布 
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图 4-3 信任 因子 q: 的 分 布 
3. 信任 的 分 布 与 分 析 


图 4-4 所 示 为 信任 度 分 布 ,显示 了 在 不 同 邻居 数 情况 下 信任 值 的 分 布 情况 。 
可 以 看 出 , 同 相似 度 分 布 图 比较 ,信任 值 分 布 较为 均匀 ,除了 信任 值 区 间 [0,0. 1] 和 
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[0.2,0. 3], 其 他 区 间 都 有 分 布 。 其 中 ,[0.4,0. 8] 区 间 分 布 比例 最 高 , 占 总 分 布 的 
88. 88%。 在 推荐 系统 中 ,通过 信任 算法 ,每 个 项 目 都 得 到 一 个 信任 值 ,90% 的 项 目 
信任 值 分 布 在 [0. 4,0. 8] ,而 只 有 13. 84% 项 目 间 相似 度 值 分 布 在 [0. 4,0. 8]。 
因此 ,信任 因子 和 相似 度 是 完全 不 同 的 两 个 因素 ,把 信任 因子 引入 协同 过 滤 推 
荐 算法 是 可 行 的 。 
600 
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图 4-4 信任 度 的 分 布 


4. 实验 结果 及 分 析 

图 4-5 所 示 为 不 同 推荐 策略 的 RMSE。 可 以 看 出 ,三 种 算法 中 RMSE fH Bt 
着 邻居 数目 的 变化 而 发 生变 化 , 相 比 传统 的 基于 项 目的 协同 过 滤 (Item-based 
Collaborative Filtering,ICF) 算 法 和 传统 的 基于 SVD 的 协同 过 滤 (Collaborative 
filtering algorithm based on SVD，SVD-CF) 算 法 ,本 章 提出 的 CFSVD-TF 算法 
在 邻居 数 小 于 或 等 于 10 个 时 ,RMSE 值 呈现 指数 式 下 降 ; 当 邻 居 数 大 于 10 个 
时 ,变化 趋 稳 ; 当 邻 居 数 等 于 12 时 ,推荐 性 能 达到 最 好 ,RMSE 王 0. 9762, 比 
SVD-CF 精度 提高 了 0.53%。 随 后 , 随 着 邻居 数目 的 增加 RMSE 值 又 开始 反 
弹 ,说明 邻 居 数 目 对 于 算法 的 影响 较 大 。CFSVD-TF 算法 和 SVD-CF 算法 相 
对 于 ICF 算法 , RMSE 优化 更 明显 。CFSVD-TF 算法 相 比 SVD-CF 算法 ， 
RMSE 值 一 直 处 于 下 降 状 态 并 且 推 荐 精度 更 优 ,说 明 本 章 提出 的 算法 是 有 效 
可 行 的 ,不 仅 能 有 效 增 大 数据 密度 ,而 且 有 效 提高 了 协同 过 滤 推 荐 算法 的 预测 
精度 。 
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图 4-5 不 同 推荐 策略 的 RMSE 


本 章 小 结 


本 章 在 分 析 传统 的 基于 项 目的 协同 过 滤 推 荐 算法 及 数据 稀疏 性 问题 的 基础 
上 ,提出 基于 CFSVD-TF 算法 。 首 先 采用 SVD 方法 对 数据 特征 进一步 挖掘, 缓解 
了 数据 稀疏 性 问题 ; 然后 引入 项 目 信任 因子 ,改变 了 项 目 间 相 似 度 作为 唯一 决定 
预测 结果 的 情况 。 实 验 结果 证 明 , 本 章 算法 能 够 缓解 数据 稀 朴 性 带 来 的 推荐 精度 
不 高 的 问题 ,能够 满足 此 应 用 领域 的 要 求 。 在 下 一 步 的 研究 工作 中 ,将 会 采用 带 反 
馈 的 SVD 结合 更 高 维 的 特征 向 量 , 进 一 步 研究 协同 过 滤 推 荐 算法 中 ,根据 项 目 间 
的 相关 规律 所 能 反映 出 的 用 户 个 性 化 ,进一步 提高 算法 的 推荐 精度 。 
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针对 基于 用 户 的 协同 过 滤 推 荐 算法 中 用 户 间 交 叉 评 分 项 较 少 的 情况 ,提出 一 
种 改进 相似 度 与 社交 网 络 中 信任 因子 相 结合 进行 计算 的 新 方法 。 首 先 利 用 原始 稀 
玻 评 分 矩阵 计算 不 同 用 户 间 评 分 项 目的 并 集 和 交集 ,以 获取 一 方 评价 而 另 一 方 缺 
失 评 价 的 项 目 评分 集合 。 然 后 通过 概率 矩阵 分 解 技术 进行 降 维 从 而 获得 近似 评分 
和 矩阵 ,用 近似 评分 矩阵 动态 填充 上 述 项 目 评分 集合 ,以 替代 用 户 共 同 评分 项 的 方式 
来 计算 用 户 间 相似 度 ; 同时 对 于 部 分 填充 中 存在 误差 的 项 目 通过 信任 度 因 子 来 动 
态 调整 ,以 其 获得 更 符合 实际 环境 下 的 相似 度 。 通 过 不 同形 式 的 实验 对 比 结果 , 表 
明 本 文 提 出 的 算法 在 预测 精度 方面 显著 提高 。 


5.1 引言 


互联 网 由 Web 2.0 时 代 进 入 Web 3.0 时 代 , 用 户 逐 渐 由 信息 消费 者 扩展 到 信 
息 生 产 者 与 消费 者 。 随 着 用 户 参 与 信息 生产 ,网 络 信息 规模 呈 爆 炸 式 增长 。 海 量 
信息 为 信息 检索 提供 了 可 能 的 同时 也 导致 了 信息 过 载 。 为 了 缓和 这 种 矛盾 ,帮助 
用 户 在 海量 数据 中 准确 快速 找到 其 感 兴趣 的 信息 ,推荐 系统 应 运 而 生 。 由 于 协同 
过 滤 能 够 处 理 电影 .音乐 .商品 推荐 等 难以 进行 文本 描述 的 项 目 ,因而 广泛 应 用 于 
电子 商务 行业 。 虽 然 协 同 过 滤 具 有 显著 优秀 性 能 ,但 仍然 面临 很 多 问题 ,其 中 之 一 
是 实际 应 用 中 数据 往往 极度 稀疏 。 以 电子 商务 为 例 , 在 电子 商务 系统 中 用 户 购 买 
的 商品 通常 不 足 网 站 商品 总 数 的 1% ,用户 只 对 极 少数 商品 进行 评分 。 常 规 的 相 
似 度 计算 方法 仅 使 用 共同 评价 项 目 , 用 户 间 具有 隐 式 相似 度 , 但 由 于 没有 共同 评分 
项 而 无 法 计算 其 相似 度 。 

国内 外 学 者 提出 采用 将 降 维 技术 来 缓解 推荐 算法 中 的 数据 稀 玖 问题 。Sarwar 
等 人 首先 提出 采用 奇异 值 分 解 (Singular Value Decomposition,SVD), 以 和 矩阵 分 解 
角度 实现 降 维 ,提取 隐 因 子 信息 。Ruslan Salakhutdinov 等 人 提出 概率 矩阵 分 解 
(Probabilistic Matrix Factorization, PMF) 技 术 , 给 予 SVD 概率 解释 并 加 以 正则 项 
避免 过 拟 合 。 我 国 台湾 学 者 林 智 仁 提出 了 支持 向 量 机 的 研究 对 降 维 技术 进行 改 
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进 。 降 维 技术 在 保留 大 部 分 数据 信息 的 情况 下 减少 数据 维 数 ,虽然 取得 了 一 定 成 
果 , 但 不 可 避免 地 损失 一 部 分 有 用 信息 。 为 提高 数据 利用 率 ,研究 人 员 提 出 了 改进 
相似 度 计算 方法 。J. Bobadilla 等 人 提出 利用 均值 填补 缺失 信息 以 充分 挖掘 用 户 特 
征 信息 。 孙 小 华 等 人 综合 基于 SVD 的 协同 过 滤 推 荐 算法 和 基于 & 近邻 的 协同 过 
滤 推 荐 算法 两 者 的 优势 ,提出 了 Pear_Afrer_SVD 算法 。 该 算法 先 使 用 SVD 技术 
对 原始 评分 矩阵 R 进行 分 解 ,再 通过 分 解 矩 阵 逆向 求解 近似 评分 矩阵 ,之 后 利用 填 
充 后 的 近似 评分 矩阵 进行 用 户 相似 度 计 算 , 最 后 采用 近邻 算法 选择 目标 用 户 的 
邻居 ,并 通过 邻居 做 出 推荐 预测 。 郝 立 燕 等 人 提出 用 SOFT_IMPUTE 算法 补 全 稀 
朴 的 评分 矩阵 结合 相似 度 因 子 与 & 近 邻 算法 做 出 推荐 预测 ,通过 补 全 的 评分 矩阵 
加 以 信任 因子 限制 得 到 WCF-SOFT 算法 。 基 于 填补 的 相似 度 计算 方法 不 可 避免 
地 会 使 预测 评分 参与 计算 ,影响 原始 用 户 特 征 信息 。 杨 兴 粮 等 人 提出 基于 信任 模 
型 填充 的 协同 过 滤 推 荐 模型 (Collaborative Filtering a Recommendation Model 
Based on Trust Model Filling, CFTM) ,该 方法 通过 分 析 日 常人 类 行为 习惯 ,利用 
评分 和 矩阵 采样 建立 信任 模型 对 用 户 相似 度 进行 填充 ,然而 单纯 信任 因子 无 法 充分 
挖掘 用 户 特征 信息 。 

基于 上 述 问 题 ,提出 一 种 基于 用 户 和 相似 度 填 充 的 协同 过 滤 推 荐 算法 (User- 
based Collaborative Filtering Algorithm Integrating a Part of Filling and Confidence 
Factor. CF-PFCF) ,通过 部 分 填充 评分 矩阵 ,用户 所 有 的 评价 行为 可 以 被 充分 挖掘 ， 
针对 稀疏 矩阵 ,有 效 避 免 了 大 量 用 户 间 没 有 共同 评分 项 的 问题 。 然 后 引入 用 户 信 
任 因子 ,有 效 衡量 每 位 用 户 评价 信息 的 可 信 性 和 可 靠 性 ,避免 用 户 的 恶意 评分 行 
为 。 实 验 结果 表明 ,CF-PFCF 算法 与 传统 相似 度 填充 算法 和 信任 因子 填充 算法 相 
比 ,具有 更 高 的 预测 精度 。 


5.2 相关 工作 


5.2.1 协同 过 滤 推 荐 算法 

经 过 多 年 的 研究 与 实验 ,协同 过 滤 模 型 已 经 成 为 个 性 化 推荐 系统 中 应 用 最 广 
泛 的 模型 。 典 型 的 协同 过 滤 可 以 分 为 基于 物品 的 协同 过 滤 和 基于 用 户 的 协同 过 
滤 , 本 研究 使 用 后 者 实现 。 协 同 过 滤 需 要 用 户 对 项 目的 兴趣 度 ,该 信息 通常 以 用 
户 一 评分 矩阵 的 形式 表示 。 例 如 ,一 个 包含 a 个 用 户 ,m 个 项 目的 用 户 一 评分 


和 矩阵。 
[na M qua c rim | 
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矩阵 中 每 一 行 r 表示 用 户 i 评价 电影 的 集合 ,所 有 用 户 集合 用 U 表示 ; 每 一 
列 r, 表示 评价 电影 7 的 用 户 集合 ,所 有 电影 集合 用 V 表示 ; 每 一 个 元 素 ri,; 表 示 用 
P i 对 电影 7 的 评分 。 

1. 计算 用 户 似 度 

利用 评分 矩阵 计算 用 户 u,v 的 相似 度 sim(u,v), 其 中 ww,v€EU。 针 对 不 同 数 
据 集 ,不 同 相 似 度 计算 方法 体现 出 不 同 效果 ,采用 如 式 (5-1)Pearson 相关 系数 计算 














用 户 相似 度 。 
> Ri — Ri) (Rje —R,) 
sim(i,j) XY —— = (5-1) 
[228 - R* [E Rw RY 
veV veV 


式 中 : R; 一 一 用 户 i 评价 所 有 电影 的 平均 评分 ; 
R, 一 一 用 户 j 评价 所 有 电影 的 平均 评分 。 
Pearson 相关 系数 用 来 衡量 两 个 向 量 之 间 的 线性 相关 程度 。 当 两 个 向 量 线性 
关系 增强 时 ,Pearson 相关 系数 趋 于 1 或 一 1。 
2. 确定 邻居 集合 
为 目标 用 户 uo 确定 邻居 集合 U 时 ,通常 采用 & 邻近 算法 进行 计算 。 例 如 , 预 
W zj ,首先 找 出 对 电影 j 评价 过 的 用 户 集合 U; ,计算 uo 与 集合 U; 中 元 素 的 相似 
度 并 进行 降序 排序 。 挑 选 U; 中 前 & 个 元 素 构 成 uo 的 邻居 集合 U 。 
3. 预测 评分 
预测 目标 用 户 us 对 电影 j 的 评分 公式 如 式 (5-2) 所 示 。 
D (ruj — Tu) X sim(uo su) 
“EU, 


| 
Qd — Tw T 





(5-2) 
>» | sim(u su) | 
“ED 











AP: rw 用 户 u 的 平均 评分 值 ; 
Us, u 的 邻居 集合 ; 
fs 邻居 对 电影 7 的 评分 ; 
T 邻居 u 的 平均 评分 值 ; 





sim(uo ,U) 一 一 wo 与 邻居 的 相似 度 。 

5.2.2. 概率 矩阵 分 解 技术 

PMF 是 现代 推荐 系统 的 基础 算法 之 一 ,核心 思想 是 : 假设 用 户 与 电影 间 的 关 
系 可 以 由 少数 几 个 因素 的 线性 组 合 决定 。 用 和 矩阵 的 角度 来 描述 ,评分 矩阵 可 以 
分 解 为 两 个 低 维 矩阵 的 乘积 及 一 U7V, 其 中 矩阵 U 为 Xn 阶 和 矩阵 ,描述 用 户 的 
个 属性 ; HELE VO m 阶 答 阵 ,描述 电影 的 人 个 属性 。 根 据 秩 的 性 质 ,& 不 得 大 
FERE R 的 秩 。 通 过 分 解 出 的 用 户 特征 矩阵 [ 和 电影 特征 矩阵 V ,逆向 可 求 得 近 
似 评分 矩阵 及 。 如 图 5-1 为 PMF 的 概率 图 模型 。 
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图 5-1 PMF 概率 图 模型 


PMF 基于 以 下 两 个 假设 : 


CD 观测 评分 矩阵 R 与 近似 评分 矩阵 并 的 差 (观测 噪声 ) 符 合 高 斯 分 布 。 由 由 
叶 斯 观点 ,完整 观测 矩阵 的 概率 密度 函数 如 式 (5-3) 所 示 。 
p(R|U.V) = NOCR,o2) = NCUTV,o2) (5-3) 
AP: o 一 一 观测 噪声 的 方差 , 需 人 工 设 定 ( 设 定 为 0.1) 。 
(2) 用 户 特 征 属 性 矩阵 U 和 电影 特征 矩阵 V 符合 高 斯 分 布 。 其 概率 密度 函数 
如 式 (5-4) 所 示 o 
pl(U) = N(0,0%), pV) = N(0.0%) (5-4) 
式 中 : ov ,ov 先 验 噪声 的 方差 , 需 人 工 设 定 (为 0.1) 。 
综合 以 上 两 个 概率 密度 函数 ,经 贝 叶 斯 后 验 概率 如 式 (5-5) 所 示 。 
_ Pp(U,V,R) 
pCR) 
对 上 述 预 测 公式 取 对 数 , 可 以 得 到 式 (5-6) 。 
InpU,V | R, .o$ ot) 一 一 Al n (R; — UTV,* zs Muru, 
U i-1 


i=1 j=1 


HAVN, -l(Q Mas) 


i=1 j=l 





plU,V |R) cc p(U.V.R) = p(R|U.V) pC) pV) (5-5) 





ND Ino}, + MDInoi,) +C (5-6) 


式 中 : C 一 一 一 个 不 依赖 于 参数 的 常数 。 
最 大 化 U fü V 的 后 验 概率 如 式 (5-7) 所 示 。 


E(U,V) = i Yin. - Uv 4 à UTU, | Viv, (5-7) 
ij i $ 
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RP: R;, 一 一 用 户 i 对 电影 j 的 评分 ; 
U; JH PR iE A E Si (II ES 
仿 一 一 电影 特征 矩阵 中 第 j 行 行 向 量 ; 
Au 和 vy 一 一 正则 化 参数 , 需 人 工 设 定 ( 设 为 0.01) 。 
对 代价 函数 式 (5-7)? 进 行 梯度 下 降 , 即 可 得 到 用 户 特 征 和 矩阵 U 和 电影 特征 和 矩 


KE V EI SEA SCR — UT V. 获得 近似 评分 和 矩阵 久 。 





5.3 CF-PFCF 算法 


5.3.1 算法 设计 思想 


CF-PFCF 算法 是 以 用 户 历 史 评分 数据 为 背景 ,遵循 协同 过 滤 的 基础 流程 , 首 
先 对 原始 用 户 一 评分 矩阵 利用 PME 技术 得 到 近似 矩阵 ,因为 该 近似 矩阵 与 均值 相 
比 更 能 反映 用 户 行为 ,因此 作为 填充 数据 。 其 次 ,针对 性 地 填充 用 户 间 一 方 评价 而 
男 一 方 缺失 评价 的 项 目 以 充分 挖 据 用 户 特征 信息 、 计 算 并 集 相 似 度 。 然 后 计算 用 
户 信 任 因子 ,分 别 以 用 户 共同 评分 下 的 相似 度 、 用 户 的 评分 次 数 、 用 户 评分 和 被 评 
分 项 目 均 值 之 差 来 限制 填充 相似 度 。 综 合用 户 信任 因子 与 用 户 相 似 度 ,减弱 相似 
度 计 算 中 由 填充 带 来 的 假设 性 ,加 权 得 到 最 终 的 调和 相似 度 。 以 该 调和 相似 度 由 
k 近邻 算法 得 到 用 户 邻 居 集 。 最 后 利用 式 (5-2) 进 行 预测 评分 ,如 图 5-2 所 示 为 
CF-PFCF 算 法 流程 。 
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因子 














图 5-2 CF-PFCF 算法 流程 


1. 部 分 填充 及 相似 度 计算 

填充 稀 玻 矩阵 的 目的 是 更 充分 地 利用 已 有 评分 信息 计算 用 户 之 间 的 相似 度 ， 
使 得 用 户 相似 度 计 算 更 加 准确 。 研 究 者 已 经 提出 许多 填充 评分 矩阵 缺失 值 的 方 
法 ,其 中 最 简单 的 填充 方法 以 用 户 评分 均值 29 ,项 目 评分 均值 ,用户 评分 中 值 、 项 
目 评分 中 值 进行 对 用 户 并 集中 缺失 值 填充 。 该 填充 方法 保证 原始 用 户 一 评分 矩阵 
的 评分 项 参与 运算 ,但 用 固定 值 填充 导致 被 填充 用 户 的 特征 被 平均 化 ,因此 在 一 定 
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程度 上 减弱 了 被 填充 用 户 的 数据 特征 ,致使 计算 相似 度 准确 率 不 高 .甚至 降低 准 

针对 以 上 间 题 提出 一 种 部 分 填充 算法 ,对 于 评分 矩阵 尺 , 先 以 PMF 方法 对 其 
进行 分 解 ,获得 近似 评分 矩阵 及 ,该 近似 评分 矩阵 预测 用 户 兴趣 趋势 。 再 通过 评分 
矩阵 R 获得 用 户 a PUT P o 所 评分 的 项 目 集合 V。 和 Www WERE Va Ve 的 并 集 
和 交集 得 到 电影 集合 Vaus H Vans. 

其 中 集合 Vous 为 用 户 a RAP o 评价 过 的 电影 ,集合 Vons 为 用 户 a MAP b 
共同 评价 过 的 电影 。 由 式 (5-8) 得 到 用 户 a SE sXJH P! o 没有 评价 过 的 电影 集 
f Ve. 

Vig = Vays — Vans (5-8) 

对 于 用 户 a, 依 PMF 近似 评分 矩阵 填补 其 V. 集合 中 不 包含 Ves 的 电影 评分 
得 到 补 全 用 户 评分 向 量 Va; 对 于 用 户 5, 依 PMF 近似 评分 矩阵 填补 其 w 集合 中 
不 包含 Vo@s 的 电影 评分 得 到 补 全 用 户 评分 向 量 Vg. BN. V = (152,355), V, = 
(3.4.5.6) ,表示 用 户 a 和 4 所 评价 过 的 电影 需 好 ,共同 评分 项 仅 有 Vans = (3.5). 
计算 得 出 集合 Vo@s 二 {1,2,4}) 为 一 方 评价 而 另 一 方 未 评价 的 电影 ,通过 对 {1,2,4 
填补 ,得 到 填补 后 的 评分 集合 Va 二 Vf 二 {1,2,3,4,5,6), 因 此 共同 评分 项 由 {3,5 
扩展 为 {1,2,3,4,5,6})。 

然后 计算 Va 和 V2 的 Pearson 相似 度 ,如 式 (5-9) 所 示 。 

9) (Rav — RGg, — Rs) 


v€ VU, 


S Ri RD | >) CRs — Ry)” 


Evaus vEVaus 
AP: Re。 一 一 补 全 用 户 评分 集合 Ve 中 的 第 v 项 电影 评分 值 ; 
Ri, 一 一 补 全 用 户 评分 集合 Vere A v 项 电影 评分 值 ; 
R, 一 一 用 户 a 在 原始 稀疏 评分 矩阵 中 的 平均 电影 评分 ; 
R,—— HP 5 在 原始 稀 疏 评分 矩阵 中 的 平均 电影 评分 。 
通过 该 填充 算法 ,在 保证 充分 利用 原始 评分 矩阵 用 户 特征 信息 的 前 提 下 避免 
过 度 填充 ,相似 度 计算 的 假设 性 减弱 。 
2. 用 户 信任 因子 
虽然 填充 算法 保证 所 有 用 户 间 相 似 度 均 可 计算 ,但 由 于 原始 评分 矩阵 过 于 稀 
玻 ,即使 进行 部 分 填充 其 相似 度假 设 性 依然 较 强 ,直接 用 式 (5-9) 所 计算 出 的 相似 
度 仍 然 不 能 反映 用 户 之 间 的 实际 关系 。 因 此 在 进行 预测 评分 时 ,应 考虑 到 多 种 因 
素 对 相似 度 的 影响 ,这 些 因素 称 为 用 户 信任 因子 。 
引入 基本 的 Pearson 相似 度 对 其 进行 加 权 调 整 ,通过 式 (5-1) 对 用 户 间 共 同 评 
价 项 进行 计算 ,得 出 基本 Pearson 相似 度 siMpearson ,该 相似 度 计 算 不 带 有 任何 填充 
项 ,可 反映 用 户 间 真 实 关 系 。 通 过 加 权 调 整 ,可 得 调和 后 的 用 户 相似 度 , 如 式 (5-10) 
所 示 。 








(5-9) 


Sima Pearson Ca +b) 
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sim_adj = a@simgu pearson + (1 — a) simpearson (5-10) 
用 户 评价 的 电影 越 多 表明 该 用 户 的 电影 评价 行为 越 可 靠 。 如 式 (5-11) 所 示 ， 
用 户 评 价 等 级 N, 表示 用 户 该 特征 。 





0. num(u) — 0 

N, = num(u) 0 < num(u) < num(U) (5-11) 
num(U) 
l; num(u) > num(U) 


式 中 : num(w) 一 一 用 户 评价 过 的 电影 数目 ; 
num(U) 一 一 所 有 用 户 评 价 过 电影 数目 的 平均 值 。 
实际 应 用 中 一 些 用 户 喜欢 评 高 分 ,一 些 用 户 喜欢 评 低 分 ,甚至 存在 恶意 评分 用 
P ,单纯 用 户 评价 等 级 不 能 衡量 用 户 的 信任 度 , 需 要 加 以 限制 。 因 此 引入 评价 偏差 
D, ,如 式 (5-12) 所 示 。 





_ 14, | 
iQ, | 
RP: QM u 所 评价 过 的 电影 集合 ，; 
d, 一 一 用 户 评价 偏差 较 小 的 电影 集合 。 
JP! u 对 电影 ; 的 评价 如 果 小 于 某 个 参考 值 , 则 认为 用 户 对 电影 i 的 评价 偏 
差 较 小 ,该 用 户 的 评价 无 异常 。 通 常 这 个 参考 值 取 电影 的 评价 均值 ,通过 式 (5-13) 
进行 计算 。 


D, 





€ [0.1] (5-12) 


| ra;— 7; Ie (5-13) 
如 果 式 (5-13) 成 立 , 则 7,,; Ed,。 通 常设 置 e 为 0.5。 实 验 显 示 。 越 小 ,偏差 要 
求 越 苛刻 , 取 值 过 小 会 使 用 户 丧 失信 任 。 
基于 式 (5-9) 至 式 (5-12), 对 相似 度 进行 加 权 调 整 , 得 到 综合 相似 度 。 如 
式 (5-14) 所 示 。 
sim, 一 QSima Pearson + (1 — a) SiMpearson + Wi Nu + w D, (5-14) 
关于 权重 值 的 设 定 , 可 以 采用 机 器 学 习 算法 、 专 家 经 验 等 ,本 书 采用 粒子 群 算 
法 ,不 断交 叉 验证 ,最 终 获取 一 组 较 优 的 权重 值 例 如 (0.7,0. 1,0. 2)。 


5.3.2 CF-PFCF 算法 的 描述 
综合 以 上 分 析 , CF-PFCF 算法 描述 如 下 : 
算法 5-1 CF-PFCF 算法 
输入: 用 户 一 评分 矩阵 及 , 待 预测 用 户 一 评分 项 集合 Rp ,邻居 数 人 
输出 : 用 户 一 评分 项 集合 Roce ,其 中 用 户 w 对 电影 i 的 评分 让 ,; € Rp o 
算法 的 基本 流程 


Step] 对 稀疏 的 原始 评分 矩阵 尺 进 行 PMF 分 解 , 得 到 PMF 近似 评分 矩阵 R; 
Step2 遍历 原始 评分 矩阵 R 计算 相似 度 和 矩阵 siman pearson 和 SiMpearson 








第 5 章 “相似 度 填 充 的 概率 矩阵 分 解 的 协同 过 滤 推 荐 算法 | 65 


续 表 

repeat 

Step2. 1 获得 用 户 w 和 用 户 us 各 自 评价 电影 集合 的 交集 Vons 和 并 集 Vous 

Step2.2 fK PMF 近似 评分 矩阵 及 ,填补 w 和 us 评分 集合 Vsns 中 缺失 项 ,获得 填补 后 的 用 
PA EG us Fu ; 

Step2. 3 用 填补 后 的 用 户 评分 集合 ww 计算 其 相似 度 获得 simi pearson ; 

until 遍历 评分 矩阵 尺 ; 

Step3 遍历 评分 矩阵 R 计算 信任 因子 ; 

repeat 

Step3. 1 获取 用 户 u, 和 用 户 ws 共同 评分 集合 ,并 计算 共同 评分 下 的 相似 度 ; 

Step3. 2 统计 每 位 用 户 评价 电影 总 数 得 到 用 户 评价 数目 集合 numu); 

Step3. 3 统计 每 位 用 户 评价 过 电影 序号 获得 用 户 历史 评价 记录 集合 user, ; 

Step3. 4 对 每 部 电影 求 其 平均 评价 值 aver, ; 

Step3. 5 通过 评分 矩阵 R 得 到 对 电影 ;评价 过 的 用 户 集合 Us; 

until 遍历 评分 和 矩阵 R; 

Step4 计算 num(ww) 平 均值 得 到 num(z ) 。 再 由 式 (5-14) 得 到 用 户 评价 等 级 集合 NL ; 

Step5 由 aver, 和 user, 通过 式 (5-12)、 式 (5-13) 计 算 用 户 评价 偏差 Dus 

Step6 利用 式 (5-14) 计 算 综 合 相似 度 sime; 

Step? 通过 对 U 对 应 simw 进 行 降 序 排序 , 取 前 个 用 户 作 为 用 户 us 的 邻居 集合 U neighbor ; 

Step8 预测 用 户 一 评分 项 集合 Ror: 

repeat 

由 sim, LU gus 和 R 利用 式 (5-2) 进 行 评分 预测 ,得 到 六 .;; 

until 遍历 集合 Rpre o 

算法 结束 


5.4 实验 分 析 


5.4.1 数据 集 与 误差 标准 


本 实验 采用 由 美国 明尼苏达 大 学 GroupLens 创建 并 维护 的 MovieLens 数据 
集 。 它 包含 943 名 用 户 对 1682 部 电影 的 评分 ,每 个 用 户 至 少 评价 过 20 部 电影 , 评 
分 集 为 {1,2,3,4,5) ,评分 越 大 说 明 用 户 对 电影 的 认可 度 越 高 。 用 户 的 稀 朴 等 级 为 
100 000/(943X1692) 二 93.7%。 实 验 将 数据 集 划 分 为 两 个 互 不 相交 的 训练 集 和 
测试 集 ,比例 为 8 : 2。 

实验 性 能 有 许多 评价 标准 ,例如 , 查 全 率 、 均 方 根 误差 . 查 准 率 等 。 本 书 采 用 平 
均 绝对 误差 (Mean Absolute Error,MAE) 作 为 度量 标准 。 假 设 测试 集中 实际 评分 
AY SA pis Pos Pa rt Pa) :算法 预测 的 评分 为 {gi ,qz 03 ttt sda) IU MAE 定义 为 
式 (5-15) 所 示 。 
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2) 19 一声 | 


MAE 一 = (5-15) 
MAE 值 越 小 ,说 明 算法 可 行 性 越 强 。 
5.4.2. 实验 结果 与 性 能 比较 


为 了 验证 本 书 所 使 用 的 填充 算法 对 传统 协同 过 滤 推 荐 算法 的 改善 作用 ,首先 
将 常用 的 几 种 相似 度 算法 进行 对 比 测试 ,如 图 5-3 所 示 为 余弦 .调整 余弦 和 
Pearson 相似 度 对 比 。 
0.755 p 
0.75 F 
0.745} 
0.74 F 
0.735 F 
0.73 上 
0.725 F 
0.72 上 


0.715 
ol 
0.705 
10 20 30 40 50 60 70 80 90 100 


邻居 数 
图 5-3 余弦 .调整 余弦 和 Pearson 相似 度 对 比 


从 图 5-3 可 以 看 出 ,余弦 相似 度 误差 最 大 ,Pearson 相似 度 误差 最 小 ,三 种 相似 
度 算 法 随 着 邻居 数 增多 ,误差 逐渐 减 小 并 收敛 。 因 此 本 书 选 择 以 Pearson 相似 度 
为 基础 进行 试验 。 

以 Pearson 相似 度 为 基础 ,分 别 对 评分 矩阵 进行 PMF 全 填充 `.PMF 部 分 填充 
计算 相似 度 后 预测 评分 ,如 图 5-4 所 示 为 Pearson, & PMF 填充 和 部 分 PMF 填充 
相似 度 对 比 。 其 中 PMF 近似 评分 矩阵 的 MAE=0. 7505. 


«€ Pearson ff {LUE 
OEE 
e RAE 


< 
= 








0.74 p 一 e 一 Pearson 相 似 度 
0.735 F 一 一 全 PMF 填 充 相 似 度 
一 一 部 分 PMF 填 充 相 似 度 











邻居 数 
图 5-4 Pearson, 4 PMF 填充 和 部 分 PMF 填充 相似 度 对 比 
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从 图 5-4 可 以 看 出 ,基于 Pearson 相似 度 算法 ,在 邻居 数 少 的 情况 下 填充 算法 
精度 提高 ,部 分 PMF 填充 算法 在 邻居 数 为 70 的 情况 下 精度 达到 最 优 。 图 5-3、 
图 5-4 表明 单纯 部 分 PMF 填充 相似 度 下 精度 提升 依然 不 明显 ,为 此 加 入 用 户 信任 
因子 利用 式 (5-16) 计 算 用 户 综合 相似 度 后 预测 评分 。 

综合 相似 度 下 预测 误差 与 Pearson 相似 度 和 部 分 填充 PMF 相似 度 预 测 误差 
作对 比 ,如 图 5-5 所 示 为 Pearson、 部 分 PMF 填充 和 CF-PFCF 算法 对 比 。 在 信任 
因子 限制 下 ,预测 精度 显著 提升 并 在 邻居 数 为 40 时 达到 最 优 。 


074r 一 人 一 Pearson 相 似 度 
0.735 一 鳃 部 分 PMF 填 充 相似 度 
0.73} 一 一 CF-PFCF 











邻居 数 
图 5-5 Pearson, 部 分 PMF 填充 和 CF-PFCF 算法 对 比 


把 CF-PFCF 算法 与 文献 [13] 提 出 的 WCF-SOFT 算法 和 文献 [14] 提 出 的 基 
于 信任 模型 填充 的 协同 过 滤 的 CFTM 算法 做 比较 ,如 图 5-6 所 示 为 CFTM、WCF- 
SOFT 和 CF-PFCF 算法 对 比 。 





0.94[ —x— CF-PFCF 
0.915} —4— WCF-SOFT 
0.89} 一 e 一 CFTM 
0.865} 
aa 0847 
$ osis- 
0.79} 
0.765} 
0.74} 


Map 和 
1 1 J 


0.69L 1 1 1 1 1 1 1 
10 20 30 40 50 60 70 80 90 100 


邻居 数 
图 5-6 CFTM,WCF-SOFT 和 CF-PFCF 算法 对 比 
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从 图 5-6 可 以 看 出 ,本 书 算法 精度 明显 优 于 WCF-SOFT.CFTM 算法 。 由 于 
CFTM 算法 主要 计算 信任 因子 没有 对 相似 度 进行 恰当 改进 ,所 以 CFTM 算法 误差 
较 大 ,在 邻居 数 为 90 时 达到 最 优 , 邻 居 数 为 100 时 误差 上 升 。WCF-SOFT 算法 稳 
定性 较 强 ,由 于 算法 运用 了 填充 技术 并 加 以 信任 因子 限制 ,所 以 预测 误差 明显 下 
降 。 本 书 算法 对 WCF-SOFT 算法 的 填充 部 分 进行 改进 ,以 部 分 填充 代替 全 局 填充 
降低 填充 评分 的 假设 性 成 分 ,并 加 以 共同 评分 相似 度 和 信任 因子 限制 。 


本 章 小 结 


本 章 对 填充 矩阵 和 信任 因子 进行 了 研究 ,在 高 维 稀 玖 的 数据 和 基于 用 户 的 协 
同 过 滤 推 荐 算法 的 基础 上 提出 部 分 相似 度 填充 和 信任 因子 限制 。 部 分 填充 保证 用 
户 特征 充分 利用 的 前 提 下 避免 过 度 填充 ,解决 了 高 维 稀 朴 评分 和 矩阵 用 户 间 共 同 评 
分 稀少 甚至 缺失 的 问题 ,并 且 对 填充 算法 的 假设 性 进行 限制 。 尽 管 算法 提高 了 整 
体 精 确 度 ,但 由 于 用 户 信任 因子 的 影响 ,该 算法 随 着 邻居 数 增多 精确 度 非 单调 下 
降 , 下 一 步 需要 研究 如 何 增强 算法 稳定 性 ,使 误差 随 着 邻居 数 增加 单调 递减 并 
收敛 。 
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BE AE [Efe Tg Ee es AE aE [6] Jed SE HE Hh — Bay SI (ELA) fe A S fid TE 
概率 矩阵 分 解 相 结 合 的 推荐 方法 。 首 先 获 取 用 户 一 项 目 评分 矩阵 ,通过 奇异 值 分 
解 来 初始 化 用 户 和 项 目的 潜在 因子 矩阵 ,然后 将 偏 置 信息 融入 到 概率 矩阵 分 解 算 
法 中 以 提升 推荐 的 精度 ,最 后 结合 最 大 似 然 估计 把 评分 预测 问题 转化 为 最 优化 问 
题 ,通过 随机 梯度 下 降 来 求解 最 优化 问题 。 在 三 个 公开 数据 集 的 实验 结果 表明 ,本 
章 提 出 的 算法 能 够 有 效 地 提升 推荐 精度 ,缓解 由 数据 高 维 稀 疏 性 带 来 的 推荐 精度 
不 高 的 问题 。 





6.1 引言 


个 性 化 推荐 算法 的 任务 是 利用 用 户 一 项 目 评分 矩阵 中 的 已 知 元 素来 预测 未 知 
元 素 的 评分 值 并 将 预测 评分 高 的 项 推荐 给 用 户 ,但 是 在 研究 过 程 中 面临 诸多 的 问 
题 , 其 中 最 为 典型 的 是 由 数据 的 高 维 稀 朴 性 带 来 的 推荐 精度 不 高 的 问题 。 

在 推荐 算法 的 研究 中 ,用 户 和 项 目的 数量 通常 都 是 数 万 甚至 数 百 万 的 ,如 果 仍 
然 用 适用 于 低 维 数据 的 相似 度 度量 方式 来 处 理 这 些 高 维 的 特征 数据 ,将 得 不 到 理 
想 的 结果 , 即 所 谓 的 “维度 灾难 ?。 同 时 ,用 户 和 项 目的 数量 是 十 分 巨大 的 ,获取 的 
用 户 一 项 目 评分 矩阵 每 一 行 代表 一 个 用 户 ,每 一 列 代 表 一 个 物品 ,只 是 这 个 矩阵 可 
能 是 非常 稀 朴 的 , 即 已 知 的 评分 只 占 总 评分 数量 的 很 少 一 部 分 ,一 般 采 用 稀 玻 度 来 
度量 数据 集 的 稀 玻 性 ,其 定义 为 用 户 评分 数据 矩阵 中 未 评分 条 目 所 占 的 百分比 。 例 
如 Epinions 数据 集 共 包含 22 166 个 用 户 和 29 277 个 项 目 , 评 分 记录 只 有 922 267 
条 , 若 采 用 Pearson 相似 度 等 传统 度量 方法 ,任意 两 个 用 户 的 相似 度 都 近似 为 0, 也 
就 是 说 根本 区 分 不 开 ,数据 集 的 稀疏 度 为 22 166 X 296 277/922 26720. 000 14, 

针对 数据 的 高 维 稀 疏 性 带 来 的 问题 ,许多 研究 者 提出 可 以 利用 填充 算法 、 基 于 
聚 类 的 算法 来 解决 ,例如 文献 [1] 提 出 了 基于 项 目的 SlopeOne 数据 填充 的 预测 算 
法 ,该 算法 根据 项 目 之 间 的 评分 差异 来 预测 未 知 评分 ; 文献 [2] 提 出 一 种 基于 用 户 
模糊 聚 类 的 协同 过 滤 推 荐 算法 ,该 算法 首先 利用 用 户 情 景 信 息 来 对 用 户 聚 类 ,然后 
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在 不 同 的 聚 类 簇 中 应 用 填充 算法 来 预测 评分 。 

然而 上 述 算法 没有 考虑 到 用 户 的 兴趣 差异 ,不 能 体现 用 户 间 的 爱好 区 别 , 尤 其 
对 于 高 维 稀 玖 数据 推荐 效果 往往 难以 得 到 保证 ,因此 本 章 提出 一 种 融合 偏 置信 息 和 
奇异 值 分 解 (Singular Value Decomposition, SVD) 的 概率 和 矩阵 分 解 (Probabilistic 
Matrix Factorization,PMF) 算 法 , 称 为 BSPMF, 利 用 分 解 后 的 两 个 低 维 矩阵 对 原 和 矩阵 
中 的 未 知 评分 进行 预测 ,在 降 维 的 同时 能 够 缓解 由 数据 的 高 维 稀 朴 性 带 来 的 推荐 
精度 不 高 的 问题 。 


6.2 相关 工作 


6.2.1 HERESY EUM 


和 矩阵 分 解 模型 假设 用 户 对 项 目的 评分 受到 若干 潜在 因子 的 影响 ,将 用 户 和 项 
目 映射 到 一 个 共同 的 潜在 因子 空间 ,这 其 实 与 实际 情况 是 相符 的 ,人 们 在 购物 时 往 
往 也 是 受到 很 多 因素 的 影响 ,如 价格 .品牌 .款式 等 。 不 过 在 该 类 模型 中 这 些 潜 在 
因子 是 很 难 解 释 出 其 究竟 是 哪个 具体 的 因素 ,也 正 因为 此 原因 和 矩阵 分 解 模型 又 可 
被 称 作 隐语 义 模型 。 

基于 矩阵 分 解 的 算法 将 原始 的 高 维度 的 评分 矩阵 Ru 近似 分 解 成 两 个 低 维 度 
的 矩阵 的 乘积 ,如 式 (6-1) 所 示 。 





Ran 29 UR View (6-1) 
AP: 一 一 用 户 的 个 数 ; 
n 一 一 项 目的 个 数 ; 
kmin(m,n) 一 一 潜在 因子 的 数量 ; 
Uim 和 Vi 一 一 两 个 低 维和 矩 的 用 户 潜在 因子 矩阵 和 项 目 潜在 因子 矩阵 。 
可 通过 迭代 训练 来 使 得 U&, 和 Vi 的 内 积 不 断 地 到 近 原始 评分 矩阵 ,同时 得 到 
UB 和 Vi 后 还 可 以 对 用 户 没有 评分 的 项 目 进 行 评分 预测 。 
基于 矩阵 分 解 的 算法 是 一 种 学 习 型 算法 ,通过 优化 预先 设 定 的 目标 函数 而 得 
到 全 局 最 优 解 ,而 且 由 于 潜在 因子 的 数量 e min Gn sn) ,算法 的 离线 计算 的 空间 复 
杂 度 低 , 这 在 当今 大 数据 的 环境 下 具有 很 强 的 实用 价值 ; 同时 ,由 于 该 算法 有 一 个 
全 局 的 目标 函数 ,使 得 算法 的 预测 准确 率 高 。 
1. 奇异 值 分 解 
奇异 值 分 解 是 一 种 常用 的 降低 数据 维度 的 矩阵 分 解 算法 ,是 由 Scott 
Deerwester 等 人 在 1990 年 提出 。SVD 在 推荐 算法 研究 中 有 着 广泛 的 应 用 。 
如 式 (6-2) 所 示 ,SVD 将 原始 和 矩阵 R 近似 分 解 为 3 个 矩阵 的 乘积 。 
VE (6-2) 
RP: U 一 一 左 奇异 矩阵 ; 
V 一 一 右 奇 异 和 矩阵 ; 
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奇异 值 矩 阵 。 
算法 6-1 基于 SVD 的 推荐 算法 
输入 : 用 户 一 项 目 评分 矩阵 Ra 和 潜在 因子 维度 向 量 &Vector ,最 大 和 迭代 次 数 maxlter, 前 
Jc BE CH] 25 AR 1825 BL fi RMSEThreshold— 107* , 
输出 : 用 户 潜在 因子 矩阵 Uw ,前 & 大 奇异 值 矩 阵 Sw 、\ 项 目 潜在 因子 矩阵 Vw 以 及 最 优 潜 
在 因子 的 维度 ko 


算法 的 基本 流程 如 下 : 
步骤 1: 将 用 户 一 项 目 评 分 矩阵 Row。 中 的 缺失 值 用 对 应 项 目的 均值 填充 ; 


步骤 2: for kVector 中 的 每 一 个 样本 kMay do 
for 重复 迭代 直到 maxIter do 
LU mm Son 9 Vin ] - SVDG,, sk)s 
选择 S,, PTW k May 大 奇异 值得 到 VS) ; 
Unt —U,, * VS); 
Vin = JSR) * Vis 
真实 评分 数据 索引 RL = Ray > 05 
均 方 根 误差 RMSE=norm( (U m VI, — Ran) X R_L, fro") /sqrt(sum(R_L)) ; 
让 上 一 次 和 下 一 次 迭代 的 RMSE 大 于 RMSEThreshold 


continue; 


S 








else 
k=kMay; 
End if 
End for 
if 本 次 潜在 因子 维度 下 的 RMSE 大 于 上 一 次 
LI k; 
End if 
End for 
步骤 3: End 
算法 结束 


2. 概率 矩阵 分 解 模型 

概率 矩阵 分 解 模型 是 矩阵 分 解 模型 中 应 用 非常 成 功 的 一 个 推荐 模型 ,是 
由 H. Shan 和 A. Banerjee F 2007 年 提出 ,该 模型 在 Netflix 推荐 竞赛 以 及 在 的 
KDD Cup 竞赛 中 都 取得 了 非常 优异 的 成 绩 。 如 图 6-1 所 示 为 PMF 的 概率 图 
模型 。 

概率 矩阵 分 解 的 基本 思想 是 在 矩阵 分 解 的 基础 上 引入 概率 的 思想 ,假设 用 户 


和 商品 的 特征 向 量 和 矩阵 都 符合 高 斯 分 布 , 见 式 (6-3) 。 


N M 
HU l) = [[NU: | 0.81. pO | oe) = [[ NO, | 0.031) (6-3) 
i=l 


j=l 


基于 这 个 假设 ,用 户 对 商品 的 喜好 程度 就 是 一 系列 概率 的 组 合 问题 , 见 式 (6-4) 。 
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图 6-1 PMF 概率 图 模型 


N M 
PCR | U,V) = [E ILING; | U7v;.o 1% (6-4) 


i=1 j=l 


XU. p(A1B) 一 一 事件 B 发生 的 情况 下 事件 A 发 生 的 条 件 概 率 ; 
Nalu —— MEK n. Jr 2878 o 的 高 斯 分 布 。 
I 为 指示 函数 ,如 果 用 户 i 选择 了 商品 j Du —1. 9 Oo. 
利用 贝 叶 斯 推导 ,可 得 用 户 和 物品 的 隐 式 特征 的 后 验 概率 ,如 式 (6-5) 所 示 。 
p(UV | Ro? 0% 0%) © p(R | U,V.o?) X pU | oO X p(V | ot). (6-5) 
对 上 述 预 测 公 式 取 对 数 ,可 以 得 到 式 (6-6)。 





N M N 
Inp(U,V | Ryo? 0808) =— -L >) DI (Ry —UTV,)? — -L DUFU, 
20° i=1 j=1 20% i=l 
1 M 1 N M 
T 2 
25 22V, - 2((22 X )io 十 
ND Ino? + MDlnot ) +C (6-6) 


AP: C 一 一 一 个 不 依赖 于 参数 的 常数 。 
最 大 化 U 和 V 的 后 验 概率 等 于 最 小 化 公式 (6-7)。 
arg min -il SG (Ry —U?V;)? + 


i=1 j=1 


N M 
WS IU, le +S IV; Iko (6-7) 
j=l 


式 中 : Fro 一 一 矩阵 的 下 范 数 。 
然后 利用 SGD 求解 式 (6-7) 。 


i=1 








74 d 机 器 学 习 算 法 实践 一 一 推荐 系统 的 协同 过 滤 理 论 及 其 应 用 


6.2.2 Baseline 预测 


观测 到 的 评分 数据 有 一 些 是 和 用 户 或 物品 无 关 的 因素 产生 的 效果 , 即 一 部 分 
因素 是 和 用 户 对 物品 的 喜好 无 关 而 只 取决 于 用 户 或 物品 本 身 特 性 。 例 如 ,乐观 型 
用 户 的 评分 行为 普遍 偏 高 ,而 批判 型 用 户 的 评分 记录 普遍 偏 低 , 也 就 是 说 即使 这 两 
类 用 户 对 同一 项 目的 评分 相同 ,但 是 对 该 物品 的 喜好 程度 却 并 不 一 样 。 同 理 , 对 同 
一 件 ( 类 、 种 ) 物 品 来 说 ,以 电影 为 例 , 受 大 众 欢 迎 的 电影 得 到 的 评分 普遍 偏 高 ,而 一 
些 烂 片 的 评分 普遍 偏 低 , 这 些 因素 都 是 独立 于 用 户 或 产品 的 因素 ,而 和 用 户 对 产品 
的 的 喜好 无 关 。 本 章 将 这 些 独 立 于 用 户 或 独立 于 物品 的 因素 称 为 偏 置 (Bias ) 信 
EDE ,加 入 偏 置信 息 的 评分 预测 算法 如 式 (6-8) 所 示 。 


Ry = p+ bu G) + boi Cj) (6-8) 
RP: Ry WP iXPE j 的 预测 评分 ; 
H 数据 集 的 总 体 偏 置 信息 ; 





bu( 站 一 一 用 户 i 的 偏 置信 息 ; 
bi(j) 一 一 项 目 j 的 偏 置信 息 。 
例如 ,要 预测 用 户 userl 对 电影 moviel 的 打分 ,假设 电影 数据 集 总 体 偏 置 
上 为 3.4 分 ,电影 moviel 的 口碑 比 其 他 电影 高 0.9 分 , 即 bi Cmoviel) —0. 9; 另 一 方 
面 ,用 户 userl 是 一 个 乐观 的 用 户 ,一 般 偏向 于 给 电影 打 低 分 (0. 3 分 ), 即 bu CuserD = 
一 0.3, 那 么 用 户 userl 对 电影 moviel 的 预测 打分 为 3. 4 十 0. 9 一 0. 3 一 4 分 。 
加 入 偏 置信 息 后 ,目标 函数 如 式 (6-9) 。 
argminE (bu +bi) SD (Ru —y— bulu) — bi G)! + 

















à >) bu (u)? +A: 2) bi G)? (6-9) 
在 实际 应 用 中 往往 根据 经 验 似 然 采用 式 (6-10) 的 方法 来 求解 5i 和 bu 的 值 。 
D Ru - 
- _ u€ RG) 
bi = T TRO 
(6-10) 
X) Ry =p bi) 
[ow 一 iER(W 
hz 十 | RGO | 
式 中 : 一 一 某 一 用 户 ; 
i 某 一 项 目 ; 
R(7) 一 一 评价 过 项 目 i 的 用 户 集合 ; 
RGO — HIP? 评价 过 的 项 目 集合 ; 





Ay 和 hs 一 一 压缩 系数 ,需要 实验 确定 。 
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6.3 算法 流程 


首先 用 算法 6-1 对 实验 数据 集 进行 训练 ,然后 将 训练 得 到 的 U 和 作为 带 偏 

置 概率 矩阵 分 解 的 初始 值 。 同 时 由 于 Bias 的 存在 ,提出 一 个 近似 的 带 偏 置 的 预测 
评分 算法 ,如 式 (6-11) 所 示 。 

Ry = p+ buli) +bi (G) +UTV; (6-11) 


式 中 : Ry 一 一 根据 本 章 的 BSPMF 算法 获得 的 预测 评分 ; 
py 一 数据 集 的 总 体 偏 置 ; 
各 个 用 户 的 偏 置 向 量 ; 





bu 





Fb PR BCR FA C6 -12) 
N M 
argmin EUV „bu bi) =i) Di (Ry — pp — bui) — biG) —UTV,)? + 


N 
52; Wu. MH. ev, I ke + 


de S | buo t+ SD pico |? (6-12) 
i=] 


i-1 
算法 6-2 基于 BSPMF 的 推荐 算法 


输入 : 用 户 一 项 目 评分 矩阵 Rw ,用 户 项 目的 潜在 因子 矩阵 Uw 和 Vw ,最 优 潜在 因子 维 
度 人 ,算法 最 大 迭代 次 数 maxEpoch, 前 后 均 方 根 误差 阔 值 Threshold, 

输出 : 用 户 潜在 因子 矩阵 U 和 项 目 潜 在 因子 矩阵 V, 用 户 偏 置 bu 和 项 目 偏 置 bi。 

算法 的 基本 流程 如 下 : 





步骤 1: 根据 算法 6-1 训练 得 到 Un 和 Vs 和 最 优 潜在 因子 维度 k,U=UR VEV 
步骤 2: 评分 值 sum 二 0, 评 分 记录 条 数 num=0; 
步骤 3: 根据 R,, 计 算得 到 数据 集 的 总 体 偏 置 yx 
for 对 于 Rw 中 的 每 一 条 评分 记录 do 
sum- sum-- R,, (num); 
num=num+ 1; 
End for 
17 sum/num; 
步骤 4: 初始 化 用 户 偏 置 向 量 bu = randn om k) RUSSE EI fi BELTS] it 6i = randn(n.k) ; 
步骤 5. 计算 式 (6-12) 的 偏 导 ,如 式 (6-13) 所 示 : 
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续 表 
-Su (Ry — p — buG) — biG) —UTV;) * V; tx» IU, I 
i=] j=] 
L9 (Ry — p — bu (i) — bi (j) —UTV; ee eS Iv; ll 
i=l jet jet (6-13) 
pA 2» (Ry — n — bu (i) — bi (j) —UTV;) + v, 2 |l bu CD |l 
i=] j=1 
Æ = SLE — p — buli) — biG) —UTV;) + àu » biG M 
ja ici j=1 j=1 
结合 SGD 对 式 (6-12) 进 行 训练 ; 
for 循环 迭代 直到 最 大 迭代 次 数 maxEpoch do 
随机 选择 一 条 评分 记录 , 按 式 (6-14) 进 行 更 新 : 
=U—ax 2E 
U =U—a* JU 
B 3E 
V=V-a* av 
(6-14) 
dE 





Ibu 


dE 
Əbi 


式 中 : a 学 习 因 子 ,需要 实验 确定 ,一般 选择 0. 001; 
真实 评分 数据 索引 R. L— Ryn > 05 
计算 均 方 根 误差 RMSE— norm (UTV — R,,) * R_L.'fro')/sqrt(sum(R_L)); 
让 上 一 次 和 下 一 次 迭代 的 RMSE 大 于 Threshold 


bi = bi —a* 








continue; 
else 
算法 结束 ; 
End if 
End for 
算法 结束 


6.4 实验 分 析 


本 章 通 过 实验 来 检验 提出 算法 的 推荐 质量 ,并 讨论 关于 Baseline 预测 算法 的 
参数 .潜在 因子 的 维度 对 推荐 结果 的 影响 ,同时 将 本 章 提出 的 基于 BSPMF 模型 的 
推荐 算法 与 经 典 的 userMean 算法 、Baseline 预测 算法 .PMF 算法 .BiasPMF 算法 
做 比较 。 
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6.4.1 实验 所 用 数据 集 


本 次 实验 分 别 在 Epinions, Ciao, Movielens 三 个 数据 集 进 行 ,这 三 个 数据 集 都 
包含 了 用 户 对 项 目的 评分 信息 ,评分 值 为 1~5 的 离散 值 ,数据 集 的 具体 信息 如 
K 6-1 所 示 。 


表 6-1 实验 所 用 数据 集 信息 





数据 集 名 用 户 数目 项 目 数目 评分 记录 数 
Movielens 943 1682 100 000 
Ciao 7375 106 797 284 086 
Epinions 22 166 296 277 922 267 


6.4.2 实验 环境 配置 


本 章 实验 中 主要 采用 MATLAB 语言 编写 所 提出 的 方法 ,具体 的 实验 配置 包 
括 硬件 环境 配置 和 软件 环境 配置 两 部 分 。 

(1) 硬件 环境 配置 : Intel AR AE 13-4150 处 理 器 , 主 频 305GHz,4G 内 存 ,500G 
硬盘 。 

(2) 软件 环境 配置 : 开发 工具 MATLAB R2014a, 操 作 系 统 为 Windows7 旗 
舰 版 。 


6.4.3 实验 评价 标准 

为 检验 本 章 提 出 算法 的 推荐 质量 ,实验 采用 均 方 根 误差 ( Root Mean Square 
Error, RMSE) 作 为 度量 标准 [ 式 (6-15)], 也 是 目前 最 常用 的 一 种 推荐 质量 度量 方 
法 ,通过 计算 预测 的 用 户 评 分 与 实际 的 用 户 评 分 之 间 的 误差 平方 和 的 均 方 根 ,来 表 
示 预 测 的 准确 性 ,RMSE 值 越 小 ,推荐 质量 就 越 好 。 


RMSE = (6-15) 





RP: ,一 一 预测 的 的 评分 ; 
R, 一 一 测试 集中 的 实际 评分 ; 
NN 一 一 测试 集 包含 的 数据 条 数 。 


6.4.4 实验 结果 及 分 析 


进行 BaseLine 预测 时 ,首先 ,将 数据 集 的 90% 划 分 为 训练 集 , 其 余 作为 测试 
集 。 其 次 ,做 Baseline 预测 。 选 择 Baseline 做 预测 的 目的 在 于 该 算法 训练 时 间 短 ， 
预测 精度 较 高 ,对 于 不 同 的 数据 集 ,一 般 可 通过 实验 训练 找到 参数 的 最 优 设 定 。 
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如 图 6-2 所 示 为 MovieLens 数据 集 的 Baseline 预测 . HEP A, —2.a; —5. RMSE 
最 小 为 0.9559 。 





40 






30 i 2 20 
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图 6-2 MovieLens 数据 集 的 Baseline 预测 


如 图 6-3 所 示 为 Ciao 数据 集 上 做 的 Baseline 预测 , 其 中 A, = 60, à: = 40. 
RMSE 最 小 为 1. 0279 。 
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图 6-3 Ciao 数据 集 的 Baseline 预测 


如 图 6-4 所 示 为 Epinions 数据 集 上 的 Baseline HWI., HP à, = 55, A2 = 45, 
RMSE 最 小 为 1. 1038. 

然后 ,在 已 知 RMSE 最 小 值 的 情况 下 ,确定 潜在 因子 的 维度 ,如 图 6-5 至 
图 6-7 所 示 分 别 为 MovieLens 数据 集 潜在 因子 维度 .Ciao 数据 集 潜在 因子 维度 和 
Epinions 数据 集 潜 在 因子 维度 。 
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图 6-4 Epinions 数据 集 的 Baseline 预测 
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图 6-5  MovieLens 数据 集 潜在 因子 维度 


通过 图 6-5 至 图 6-7 可 以 看 出 ,BSPMF 算法 对 于 不 同 的 数据 集 , 存 RMSE 最 优 
的 情况 下 其 维度 差距 比较 大 ,说 明 算 法 在 推荐 过 程 中 ,数据 集 的 选择 对 于 算法 的 实现 
起 着 至 关 重 要 的 作用 。 为 了 更 直观 地 表示 同一 算法 在 RMSE 最 优 的 情况 下 不 同 数 
据 集 的 变化 ,绘制 成 如 图 6-8 所 示 的 BSPMF 算法 对 3 种 数据 集 的 RMSE 对 比 图 。 

为 了 进一步 观察 不 同 算法 对 上 述 3 种 数据 集 的 RMSE 值 ,根据 图 6-5 至 图 6-7， 
选 定 MovieLens 数据 集 的 潜在 因子 维度 为 100,Ciao 数据 集 的 潜在 因子 维度 为 60， 
Epinions 数据 集 潜在 因子 维度 为 80。 根 据 实验 确定 算法 的 正则 化 因子 Xu 二 0. 09、 
àv=0. 06, Abu — 0. 09,Abi — 0. 06 和 SGD 学 习 速 率 alpha — 0. 003, 得 到 最 终 的 
RMSE。 如 图 6-9 所 示 为 3 种 不 同 数 据 集 下 不 同 算法 的 RMSE。 
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图 6-6 Ciao 数据 集 潜在 因子 维度 
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图 6-7 Epinions 数据 集 潜 在 因子 维度 


从 图 6-9 可 以 看 出 BSPMF 算法 与 经 典 的 userMean 算法 、Baseline 预测 算 
i PMF 算法 、BiasPMF 算法 相 比 ,在 3 种 数据 集 下 ,达到 RMSE 最 优 情况 下 ， 
BSPMF 算法 效果 最 优 。RMSE 最 小 值 的 情况 与 数据 集 本 身 的 维度 也 有 和 较 大 
的 关系 ,维度 越 大 ,采用 BSPMF 算法 效果 越 明 显 ,也 进一步 说 明 BSPMF 算法 
在 降低 维度 的 同时 能 够 缓解 由 数据 的 高 维 稀疏 性 带 来 的 推荐 精度 不 高 的 
问题 。 
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图 6-8 BSPMF 算法 对 3 种 数据 集 的 RMSE 对 比 图 





an MovieLens 数 据 集 
. -iao 数 据 集 
he Epinions 数 据 集 














Ue Baseline PMF BiasPMF BSPMF 
不 同 的 算法 


图 6-9 3 种 不 同 数 据 集 下 不 同 算法 的 RMSE 


本 章 小 结 


本 章 针 对 个 性 化 推荐 算法 所 面临 的 由 数据 的 高 维 稀 疏 性 带 来 的 推荐 精度 不 高 
问题 提出 了 基于 偏 置 信息 的 SVD 概率 和 矩阵 分 解 算 法 ,该 算法 充分 利用 了 已 有 的 用 
户 评 分 信息 、 偏 置信 息 和 概率 矩阵 分 解 的 方法 ,提高 了 预测 的 精度 。 但 是 ,如 何 整 
合 有 用 的 隐 式 反馈 信息 和 社交 网 络 信息 ,从 而 进一步 提高 推荐 精度 仍 值得 继续 
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为 进一步 提升 推荐 的 精度 ,鉴于 具有 相似 属性 的 项 目 之 间 的 项 目 潜 在 因子 向 
量 也 具有 相似 度 ,本 章 首先 将 相似 项 目的 潜在 因子 向 量 的 差 值 作 为 一 种 非 线 性 正 
则 项 来 约束 传统 的 概率 矩阵 分 解 过 程 , 同 时 考虑 到 同一 项 目 有 多 种 不 同 的 属性 ,而 
且 为 避免 共同 属性 少 而 相似 度 高 的 问题 ,提出 一 种 拉 普 拉 斯 平滑 修正 的 项 目 之 间 
的 相似 度 度量 方法 作为 权重 来 约束 项 目的 分 解 ; 其 次 融合 用 户 项 目 偏 置信 息 , 提 
出 一 种 名 为 IAR-BP(Item Attribute Regulation with Bias Probabilistic Matrix 
Factorization) 的 改进 概率 矩阵 分 解 算法 。 在 两 个 真实 数据 集 上 的 实验 结果 表明 ， 
本 章 提出 的 IAR-BP 算法 相对 于 传统 的 概率 矩阵 分 解 算法 不 仅 收敛 快 而 且 收 敛 精 
度 高 。 





概率 矩阵 分 解 算 法 通过 优化 预先 设 定 的 目标 函数 从 而 得 到 近似 全 局 最 优 和解， 
假设 用 户 一 项 目 评分 矩阵 服从 高 斯 分 布 ,并 且 由 其 最 终 分 解 得 到 的 用 户 特征 矩阵 、 
项 目 特征 矩阵 也 分 别 服从 高 斯 分 布 且 两 者 之 间 相 互 独立 同 分 布 ,推荐 精度 较 高 , 同 
时 具有 坚实 的 理论 基础 ,能 较 好 地 应 用 于 实践 之 中 。 

目前 大 部 分 PMF 算法 是 将 用 户 项 目 一 评分 矩阵 作为 唯一 的 信息 源 ,比较 有 代 
表 性 的 有 Ruslan Salakhutdinov 等 人 提出 的 PMF 算法 ,分 析 用 户 行 为 的 隐 含 语 
义 , 通 过 隐 含 特征 训练 用 户 兴 趣 和 物品 。 但 在 实际 使 用 中 很 难 实现 实时 推荐 ,利用 
时 间 信 息 对 用 户 或 项 目 进行 建 模 ,改进 传统 的 隐语 义 模型 推荐 算法 。Rendle 将 隐 
语义 模型 的 泛 化 表示 为 因子 分 解 机 FM, 针对 矩阵 分 解 容易 过 拟 合 ,Salakhutdinov 
等 人 提出 贝 叶 斯 概率 矩阵 分 解 模 型 BPMF .对 概率 矩阵 分 解 模 型 进行 贝 叶 斯 处 理 ， 
并 使 用 马尔 可 夫 链 方法 训练 BPMF ,所 得 到 的 模型 比 PM 提高 了 预测 准确 度 。 对 
电影 评分 建 模 时 ,很 难 将 评分 时 间 、 用 户 属性 和 电影 属性 加 入 到 PMF 模型 中 ， 
Adams 等 人 对 这 些 信息 高 斯 过 程 先 验 耦 合 再 加 入 到 PMF 模型 中 ,将 概率 矩阵 分 
解 模型 与 高 斯 过 程 相 结合 ,. 提 出 了 DPMF 算法 。Porteous 等 人 将 贝 叶 斯 概率 矩阵 
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分 解 与 狄 利克 雷 过 程 相 结 合 ,提出 了 BMFSI 算法 。Koren 对 隐语 义 模型 进行 了 描 
述 ,并 在 此 基础 上 结合 用 户 的 显示 反馈 和 隐 式 反馈 提出 了 一 种 称 为 BiasedMF 的 推荐 
算法 ,Steffen Rendle 等 人 利用 其 所 提出 libFM 实现 因子 分 解 机 的 相关 算法 。 国 内 比 
较 有 代表 性 的 有 东北 大 学 郭 贵 冰 副教授 所 领导 的 推荐 系统 团队 设计 开发 的 libRec Hë 
荐 系统 库 和 中 国 台湾 师范 大 学 林 智 仁 教授 所 领导 的 机 器 学 习 小 组 研发 的 业内 著名 的 
libMF 矩阵 分 解 库 并 予以 描述 。 

不 过 单纯 依靠 用 户 项 目 评分 信息 并 不 能 显著 提高 推荐 精度 ,因为 这 类 方法 往 
往 假设 用 户 和 项 目 之 间 独 立 同 分 布 ,忽略 了 项 目 属性 信息 对 推荐 精度 的 影响 ; 同 
时 ,由 于 算法 假设 用 户 和 用 户 之 间 、 项 目 和 项 目 之 间 独 立 同 分 布 ,没有 考虑 到 项 目 
之 间 的 复杂 关系 以 及 用 户 和 项 目 本 身 的 差异 ,不 能 显著 提高 推荐 质量 ,尤其 对 于 高 
维 稀 玻 数据 推荐 效果 往往 难以 得 到 保证 。 

现 有 的 概率 矩阵 分 解 方法 存在 如 下 两 大 问题 : 

CD 大 多 数 前 人 的 工作 集中 在 额外 信息 和 评分 信息 的 简单 线性 融合 ,很 少 考 
虑 到 社交 网 络 中 信任 的 传播 与 聚合 ,导致 推荐 精度 较 低 。 

(2) 用 户 自 定 义 的 标签 信息 和 评论 信息 往往 过 于 随意 ,从 而 造成 不 精确 的 相 
似 项 度量 ,实际 使 用 中 需要 结合 非常 复杂 的 自然 语言 处 理 技巧 ,而且 并 不 是 所 有 的 
数据 集 都 包含 用 户 对 项 目的 标签 信息 或 者 评分 信息 。 

项 目 属 性 信息 一 般 由 领域 内 专家 进行 注解 ,具有 一 定 的 权威 性 并 且 不 需要 复 
杂 的 自然 语言 处 理 技巧 ,例如 如 果 某 一 用 户 喜 欢 看 铠 怖 片 , 某 部 电影 属于 恐怖 片 ， 
那么 该 用 户 就 很 可 能 喜欢 这 种 电影 ,具体 到 本 章 的 处 理 中 就 是 给 恐怖 片 较 大 的 权 
重 。 文 献 [1] 结 合 项 目 属性 信息 和 概率 矩阵 分 解 模型 提出 一 种 名 为 IAPMF 的 算 
法 来 解决 协同 过 滤 中 的 冷 启动 (Cold Start) 问 题 。 文 献 [2] 探 索 了 利用 项 目 信息 和 
矩阵 分 解 模型 来 解决 协同 过 滤 中 的 隐私 保护 问题 的 可 能 性 。 以 上 这 些 基 于 项 目 属 
性 的 方法 虽然 从 模拟 现实 世界 的 角度 出 发 ,但 它们 的 推荐 过 程 将 项 目 属性 共同 对 
f ,而 忽略 了 项 目 属性 的 多 样 性 ; 然而 在 很 多 现实 场景 中 ,具有 共同 某 些 属性 的 项 
目 不 一 定 被 同样 的 用 户 所 喜欢 ,例如 有 的 用 户 仅仅 是 出 于 心理 的 原因 才 看 同一 名 
演员 所 出 演 的 电影 ; 此 外 ,现实 世界 中 属性 标注 的 随意 性 也 是 造成 属性 关系 多 样 
性 的 重要 原因 之 一 ,例如 有 的 电影 是 动作 类 喜剧 ,但 是 标注 为 搞笑 类 或 者 仅仅 是 动 
作 类 ,因此 简单 地 将 属性 关系 同等 对 待 ,认为 喜欢 动作 类 电影 的 用 户 一 定 喜欢 另外 
的 具有 动作 属性 的 电影 ,将 很 难 发 现 隐 藏 在 项 目 属 性 背后 的 项 目 关联 关系 。 








7.2 IAR-BP 算法 


7.2.1 相似 度 度量 


传统 的 项 目 属性 相似 度 度量 方法 仅仅 依靠 类 似 Jaccard 系数 的 方式 或 者 用 用 
户 对 项 目的 评分 相似 度 作 为 度量 标准 ,这 在 一 定 程度 上 缓解 了 由 数据 稀 玻 性 带 来 
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的 推荐 精度 不 高 的 问题 ,但 是 该 方法 存在 着 以 下 的 固有 缺陷 和 不 足 。 

(1) 每 个 项 目的 属性 都 是 多 样 的 ,所 以 很 难 用 某 一 属性 进行 概述 。 尽 管用 户 
对 项 目的 评价 很 高 ,但 是 用 户 有 可 能 喜好 评价 项 目 赋予 的 某 些 属性 。 所 以 ,单纯 地 
通过 用 户 对 项 目的 评价 来 判断 用 户 间 是 否 存在 共同 喜好 具有 一 定 的 片面 性 ,无 法 
从 本 质 上 有 效 地 反映 用 户 的 真实 喜好 。 

(2) 如 果 采 用 Jaccard 系数 ,那么 会 出 现 该 方法 避免 了 一 些 公共 项 目 数目 少 而 
相似 度 值 高 的 不 合理 现象 ,例如 假设 某 类 项 目 有 200 个 属性 ,如 果 志 和 is 共 同 有 
2 个 而 且 只 有 2 个 ,同样 如 和 i 共 同 有 20 个 而 且 只 有 20 个 ,那么 通过 它们 的 
Jaccard 系数 得 到 的 相似 度 最 终 都 是 1。 

(3) 这 些 方法 没有 考虑 属性 之 间 的 区 分 度 , 例 如 判断 男人 和 女人 ,如 果 某 用 户 
有 很 多 胡子 ,基本 就 是 男人 了 。 而 且 可 能 一 些 属性 区 分 度 不 是 很 大 ,例如 电影 类 型 
(爱情 动作、 喜剧 ) ,这 些 属性 并 不 是 互 斥 的 。 

鉴于 此 ,本 章 提出 相似 度 度量 方式 如 式 (7-1) 所 示 。 


W,+1 . . 
1€ NSAN jen) y NGtSet N Seo +1 


W,+k  NüGtSet U jtSet) +k 

1€ NCitSetU jtSer) 
式 中 : itSet 一 一 电影 i 具有 的 项 目 属性 集合 ; 

N(itSet 门 jtSet) 一 一 电影 i 和 j 具有 的 项 目 属性 的 交集 ; 

N(itSetUjtSet) 一 一 并 集 ; 

k 一 一 拉 普 拉 斯 平滑 ; 

w 一 一 权重 系数 ,来 自 于 该 属性 类 电影 被 评价 的 次 数 除 以 总 的 次 数 , 最 后 做 

归 一 化 。 


7.2.2 算法 描述 


数据 集 包括 一 个 含有 N 个 用 户 的 用 户 集 合 口 = 人 tw,wzvus，… sux) AM 个 项 
目的 集合 I 三 {i ,iz vig eet sium}, 用户 项 目 评分 矩阵 用 Rum 表示 。 

IAR-BP 算法 的 基本 思想 是 在 矩阵 分 解 的 基础 上 引入 概率 的 思想 ,首先 假设 用 
户 对 项 目的 真实 评分 和 预测 评分 之 间 的 误差 服从 高 斯 分 布 ,因此 观察 到 的 用 户 评 
分 服从 以 下 的 条 件 分 布 ,如 式 (7-2) 所 示 。 

Ry <-U!V;>p(R; —U?V; | 0,0)Op(Rs | UTV; ,0’) (7-2) 

然后 假设 用 户 潜在 因子 空间 服从 均值 为 0 的 高 斯 分 布 ,潜在 因子 之 间 独 立 同 

分 布 ,如 式 (7-3) 所 示 。 





(7-1) 





itemsim(7,j) 


pU | o%) = [[ ING; 10.2551 (7-3) 

RP: NGCzlnpo) 一 一 均值 为 s. FED o^ 的 高 斯 分 布 。 
其 次 ,由 于 项 目 属性 的 影响 , 越 相 似 的 项 目 之 间 的 项 目 潜在 因子 空间 也 越 相 
似 , 也 就 是 说 用 一 个 项 目的 潜在 因子 空间 需要 根据 和 其 相似 的 其 他 项 目的 潜在 因 
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子 空间 来 决定 ,根据 概率 论 中 的 链 式 法 则 ,项 目的 潜在 因子 空间 如 式 (7-4) 所 示 。 
PCV | itemsim.o? ,otomsim ) 09 PCV | o%) X pCV | itemsim ,of msim) 


M M 

E I [NCV; | 0.0%) 1X IE ON( Vv; | Dievitemsim( Vs sohemin)] (7-4) 

对 Rout 圣 过 贝 叶 斯 推导 ， 隐 式 特征 的 后 验 概率 如 式 (7- 5) 所 示 。 

p(U,V | R,itemsim,o’ «ob «ov ,otomsim ) oO 

PCR | U,V, itemsim,o’ ,0% «oy «Goss? X Pp(U,V ,itemsim,o’ ,a8 90% s Oromim) 
= Pp(R|IU,V,o) X p(U | of) X pV | itemsim.ot 02cmsim) 
= p( | U.V.o*) X pU | og) X p(/ | oO X pV | itemsim, orcsin) 

N M N M 

= ILIDUNG; | UEV; Je x TT NW; | 0.03) x [[ NC; | 0.02) x 


i=1 j=1 i=l gud 


HINU ZitemsimG DV, «ois  ] (7-5) 


tev 
通过 最 大 似 然 估计 来 最 大 化 后 验 概率 ,如 式 (7-6) 所 示 。 
D(U.V | R,itemsim,o? ,ob «Gy «Okensin ) 











M 
== IE IHE n «, —utv,» 1, 1 SUU, 

2o ici j=l 200 f=1 

1 AM 1 N M 
25 22 V;— (Yh Jine! 一 

M 

co (Vi — X2, v itemsimG.D ' (V; — 7, ,itemsimG.0 )— 
TN X K)Ino§ + CM X K)Ino + 
(M X KOlnolaas) +C (7-6) 


Xm. C 一 一 常量 。 
C 通过 固定 超 参数 0g? Lob 0% soRemsin ,如 式 (7-7) 所 示 。 


N M 
L(R,U,V ,itemsim) = [[ [[ I; (R; —UTV;)? +u lU ll $ +ay IV 1$ + 


i=l j=1 


Arani bo (Vi — 2 cvitemsim(j DV, ) 
1 


(V; — 2 evitemsim(j OV, ) (7-7) 





式 中 : iu 一 RA iemsin 一 控制 着 项 目 属性 信息 在 矩阵 分 解 中 的 作用 ， 


| * |‖ 下 一 一 矩阵 的 下 范 数 , 求 导 得 到 各 个 变量 的 偏 导 。 
例如 : 要 预测 用 户 userl 对 电影 moviel 的 打分 ,假设 电影 数据 集 总 体 偏 置 
y 283.4 分 ,电影 moviel 的 口碑 比 其 他 电影 高 0.9 分 , 即 bi (moviel) =0. 9, 另 一 方 
面 用 户 user] 是 一 个 乐观 的 用 户 ,一 般 偏 向 于 给 电影 打 低 0. 3 分 , 即 be (userl ) = 
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一 0. 3 ,那么 用 户 userl 对 电影 moviel 的 预测 打分 为 3. 4+0. 9—0. 3=4 分 。 
为 了 不 失 一 般 性 ,往往 用 Fz)=(z 一 1)7CR。 一 1) 把 实际 评分 映射 到 (0,1]， 
JH g(x) 二 1/(1 十 exp(x)) 把 预测 评分 映射 到 (0,1], 其 中 Rx 为 数据 集中 的 最 大 评 
分 值 ,如 式 (7-8) 所 示 。 
L(R,U,V ,itemsim) = [| [[ 15 (Ry — gla + bu + oi G) +UTV,))? + 


i=1 j=1 

àv || U l| $ + Av WV WE + Ass Il bee lE +A 上 65i EA 
M 

Aitemsim SS (V; 一 > vitemsim(7 DV, 六 
j=l 


(Vi — 27 ,evitemsim(j OV, ) (7-8) 
最 终 的 目标 函数 如 式 (7-9) 所 示 。 


N M 
L(R,U,V ,itemsim) = [T [[ 1; (Ry — gts + bu G) +bi G) +UTV,)) 十 


i=] j=l 


àu lU WE + Av VE + às Ul be WE d- As Ibi Ilg + 


M 
PNE. (V; = > vitemsim(j OV, ji 
ji 























(V; — 2, ,itemsimG OV, ) (7-9) 
RP: UV 需要 学 习 , 对 应 的 梯度 如 式 (7-10) 所 示 。 
aL 2 r ey 
Wh > Ig’ (p d- bu G) +biG) +UTV) 
Gg + bu) + bi G) +UTV;) — Ry Vj +AU; 
N 
wW, = Se = M Bg’ (e+ bu Ci) + bij) +U) 
Ove i=l 
Gri + bu G) +: bi G) --UTV;) — R;)U;: + 
N M 
Aiemsim >) 2 jitemsimCi ,j) (V; — Vj) + A,Vj 
i=1 j=1 
mii = 24 = Y Tg! (u + bu G) + bi G) +UTV) eee 
Abu Gi) A a i 
Celu + bu G) +bi G) +UFV;) — Ry) +àubu Ci) 
zs aL i f sae 
WiD = Gy = 之 IRg’ (p+ bu G) -- bi G) 4-UTV) 
(GG + buli) + bi G) +UTV,) — Ry) Hubi G) 
N 
va A = SU 
i=1 








(get bu G) + bi G) +UTV;) — Ry) 
然后 根据 式 (7-11) 更 新 参数 上 述 参 数 。 
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U; —U,; — y VU, 
V; —Vj—YyW; 
buG) — bu Gi) — y Wu (i) (7-11) 
biG) — biG) —y BiG) 
pep Y 
RP: y00——£2] EX; 
/一 -数据 集 的 总 体 偏 置 ; 
bu 各 个 用 户 的 偏 置 向 量 ; 
bi 各 个 项 目的 偏 置 向 量 。 
最 终 的 预测 公式 如 式 (7-12) 所 示 。 
Ry = p+ buG) +bi (G) --UTV; (7-12) 
图 7-1 为 IAR-BP 算法 的 概率 图 模型 。 








oy oy 


















itemsim( j,k1) 





























图 7-1 IAR-BP 算法 的 概率 图 模型 


算法 实现 的 伪 代 码 如 算法 7-1 所 示 。 

算法 7-1 IAR-BP 算法 
输入 : maxlter ,7,p, 正 则 化 参数 分 解 维度 
输出 : U,V bu sbispe 
算法 的 基本 流程 如 下 : 


Initialize model parameters U,V. bu, bi. p 





for i=1,2,+*+,maxIter do 
for h=1,2,.…,p do 
Randomly draw a rating record Cu.i.r,) 
Caculate the gradients as shown in 式 (7-9) 
Update model parameters as shown in 式 (7-10) 
end for 
Decrease the learning rate y<-yYX0. 9 
end for 


算法 结束 
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7.2.3 ”算法 复杂 度 分 析 


对 式 (7-9) 进 行 计算 的 复杂 度 为 OCprk 十 murd) ,on JI R 中 已 评分 元 素 的 个 数 ,ur 
为 一 个 用 户 平均 信任 的 用 户 个 数 。 梯 度 下 降 的 复杂 度 OCprk? + m Cur + ur) urd), 
OC ork? ) .OCosk? ) OCork? ) fll OC ork?) ,其 中 好 表示 一 个 用 户 平均 被 信任 的 用 户 个 数 。 

由 于 用 户 在 互联 网 中 评分 记录 和 信任 记录 服从 寡 律 分 布 , 长 尾 上 的 用 户 往往 只 
有 很 少 的 用 户 信任 数目 ,那么 mur pes 同 理 ,mur pr ,那么 算法 最 终 的 复杂 度 为 
Olprk 十 5prk?), 可 以 看 出 本 章 提出 的 RBPT 算法 和 pr 线性 相关 ,适用 于 大 数据 集 。 


7.3 实验 结果 对 比分 析 


本 节 通 过 详尽 的 实验 来 进一步 地 验证 7. 2 节 中 提出 IAE-BP 算法 的 推荐 精 
度 ,同时 讨论 有 关 维 度 和 iaemsn 的 系数 变化 对 推荐 精度 的 影响 程度 ,最 后 将 本 章 提 
出 的 IAR-BP 推荐 算法 与 其 他 传统 的 基于 矩阵 分 解 的 个 性 化 推荐 算法 进行 全 方位 
的 比较 和 分 析 。 


7.3.1 实验 数据 集 


在 推荐 系统 的 研究 中 几 种 公开 可 用 的 数据 集 被 用 来 评价 推荐 算法 的 质量 , 例 
如 MovieLens 100k, MovieLens 1M, Epinions 和 Ciao 等 人 ,本 章 选 择 MovieLens 100k 
和 MovieLens 1M 作为 实验 数据 集 。Ciao 和 Epinions 包含 项 目 属性 信息 ,Epinions 数 
据 集 包括 49290 用 户 对 139738 项 目的 评分 ,以 及 487181 条 用 户 间 的 信任 关系 。 
为 了 更 加 精确 地 验证 本 章 提出 算法 的 优 劣 ,对 于 上 述 整个 实验 数据 集 需 要 进一步 
划分 为 训练 集 和 测试 集 两 部 分 , 即 按照 通用 的 数据 集 和 训练 集 的 划分 方法 ,将 整个 
数据 集 的 80% 作 为 训练 集 ,20% 作 为 测试 集 。 表 7-1 所 列 为 MovieLens 数据 集中 
不 同 电 影 类 型 的 属性 表 , 数 据 集 为 MovieLenslOOk 和 MovieLens1M 数据 集中 所 
包含 的 18 种 项 目 属性 信息 。 从 表 7-1 可 以 看 出 ,属性 之 间 并 不 是 互 斥 的 ,例如 
Action( 动 作 系 列 ) 和 Adventure( 冒 险 系 列 ) 等 。 


表 7-1 MovieLens 数据 集中 不 同 电影 类 型 的 属性 表 


Action Adventure Animation Children’s Comedy Crime 
Documentary Drama Fantasy Film-Noir Horror Musical 
Mystery Romance Sci-Fi Thriller War Western 


7.3.2. 实验 评价 标准 
为 检验 本 章 提出 算法 的 推荐 质量 ,实验 采用 RMSE. 
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7.3.3 对 比 实验 配置 及 说 明 


1. Baseline 预测 
如 式 (7-2) 所 示 是 Baseline 算法 的 最 终 评分 预测 公式 ,用 该 算法 做 对 比 实验 的 
目的 是 比较 偏 置 对 实验 结果 的 影响 ,如 式 (7-13) 所 示 。 





Ry = p+ bu d- bi) (7-13) 
RP: R JME i 对 项 目 j 的 预测 评分 ; 
Hu 数据 集 的 总 体 偏 置信 息 ; 
buCi) 用 户 i 的 偏 置信 息 ; 





bi(j) 一 一 项 目 j 的 偏 置 信息 。 
在 实际 应 用 中 往往 根据 经 验 似 然 采用 式 (7-14) 的 方法 来 求解 bi 和 bu 的 值 。 


2 (Ru — 1) 


u€ RG) 


a 十 | RG) | 


p» (Ru — i — bi) 
by = ERW 7 
hu FRO (7-14) 


bi — 


RP: x 一 一 某 一 用 户 ; 
i 一 一 某 一 项 目 ; 
RQ(i) 一 一 评价 过 项 目 i 的 用 户 集合 ; 
R(w) 一 一 用 户 评价 过 项 目 集合 ; 
a 和 8B 一 一 压缩 系数 ,需要 实验 确定 。 
2. SVD 
与 传统 的 SVD 算法 进行 对 比 ,这 里 只 计算 用 户 指定 的 最 大 的 K 个 奇异 值 。 
3. PMF 
实验 中 为 了 降低 模型 的 复杂 度 ,本 章 选 择 io 一 Mv 王 0.01, 梯 度 下 降 的 学 习 速 率 
170.03, 
4. ALS 算法 
随机 选择 90% 作 为 训练 集 ,余下 的 10% 作 为 训练 集 ,做 五 折 交 叉 验证 取 最 终 
的 平均 值 作为 结果 。 不 失 一 般 性 ,对 于 和 矩阵 分 解 算法 ,hu 二 A 二 Xs = 0. 1,9 = 
0.005。 和 迭代 次 数 为 200 次 。 


7.3.4 实验 参数 分 析 


1. A xt RMSE 的 影响 

如 图 7-2 所 示 为 RMSE 值 的 变化 (100k 数据 集 ) ,在 MovieLens 100k 数据 集 
上 的 Baseline 预测 i it Scu Az 3.4 A;— 2.2; —5 时 RMSE 达到 最 优 ,最 小 值 为 
0. 9559, 
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图 7-2 RMSE 值 的 变化 (100k 数据 集 ) 


如 图 7-3 所 示 为 RMSE 值 的 变化 (1M 数据 集 ) ,在 MovieLens 1M 数据 集 上 
做 的 Baseline 预测 , 14 A; —2.A; —5 时 RMSE 达到 最 优 ,Baseline 得 到 的 最 优 值 为 





0. 9553, 
£i 0.904 
æ 0.902 
图 7-3 RMSE 值 的 变化 (1M 数据 集 ) 
2. B 的 影响 
本 章 算法 的 主要 优势 便 是 联合 项 目 属性 信息 和 用 户 项 目 评分 和 矩阵 信息 ,从 而 
显著 预测 用 户 偏 好 。 


本 章 算法 中 的 参数 8 控制 着 项 目 属性 信息 的 贡献 大 小 ,如 果 8 一 0, 本 章 算法 仅 
仅 挖 掘 用 户 项 目 评 分 矩阵 信息 ; 另外 ,如 果 8 二 inf, 那 么 项 目 属性 信息 将 会 主宰 模 
型 的 训练 过 程 。 因 此 在 实际 应 用 中 需要 精确 调整 参数 8 以 避免 模型 陷入 极端 。 如 
图 7-4 所 示 为 Ciao BE B Xt MSE 值 的 影响 ,如 图 7-5 所 示 为 FilmTrust 数据 集 
8 对 MSE 值 的 影响 
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图 7-4 Ciao 数据 集 B8 对 MSE 值 的 影响 


图 7-4 中 Ciao 数据 集 随 着 和 迭代 次 数 的 增加 ,RMSE 值 一 直 处 于 下 降 过 程 中 ， 
尤其 是 一 开始 时 , 当 B 值 由 0.1 到 0.2 这 个 变化 阶段 ,RMSE 值 呈现 指数 级 的 下 
降 , 说 明 8 值 对 于 RMSE 的 影响 比较 明显 。 当 8 值 0.7 时 ,RMSE 值 为 0.91348。 

0.8545 T T r T r T T E 








0.8540F- 


0.8535 


RMSE 


0.8530 


0.8525 








0.8520 








图 7-5 FilmTrust 数据 集 8 对 MSE 值 的 影响 


图 7-5 中 随 着 8 的 增加 RMSE 先 下 降 , 当 8 超过 特定 值 时 RMSE 又 开始 上 升 ， 
这 种 现象 表明 融合 项 目 属 性 信息 能 提升 推荐 质量 。 值 得 注意 的 是 ,在 MovieLens 
100k 中 当 8 超 过 0. 3 时 ,RMSE 缓慢 下 降 , 在 1M 数据 集中 超过 0. 2 时 ,RMSE 2 
慢 上 升 ,8 改变 显著 说 明 模型 已 参与 训练 。 

从 图 7-4 和 图 7-5 中 8 对 RMSE 的 影响 ,可 观察 到 8 显著 影响 推荐 质量 ,说 明 
融合 属性 信息 具有 显著 优势 。 








94 4| 机 器 学 习 算法 实践 一 一 推荐 系统 的 协同 过 滤 理论 及 其 应 用 


7.3.5 实验 对 比 


为 了 验证 IAR-BP 算法 的 有 效 性 ,本 章 在 两 个 真实 数据 集 MovieLens 100k 和 
MovieLens 1M 上 做 了 几 组 实验 ,将 IAR-BP 算法 和 其 他 算法 进行 了 对 比 , 主 要 解 
决 如 下 几 个 问题 : 

CD 和 其 他 协同 过 滤 推 荐 算法 的 比较 ; 

(2) 迭代 次 数 对 RMSE 值 的 影响 。 

如 图 7-6 所 示 为 MovieLens 100k 不 同 算法 的 RMSE 值 对 比 , 如 图 7-7 所 示 为 
Movielens 1M 不 同 算法 的 RMSE 值 对 比 。 从 图 7-6 和 图 7-7 可 以 看 出 ,IAR-BP 
算法 在 迭代 80 次 时 趋 于 RMSE 值 开 始 优 于 T-SVD 算法 ,而 且 随 着 迭代 单 次 数 的 
继续 增加 ,RMSE 值 还 在 减 小 ,直到 和 迭代 次 数 160 左右 达到 最 优 值 0. 932 并 稳定 
下 来 。 

从 图 7-6 和 图 7-7 可 以 看 出 ,在 数据 集中 ,IAR-BP 算法 的 RMSE 值 到 迭代 次 
数 140 左右 达到 最 优 值 0. 862 并 稳定 下 来 。 

















20 40 60 80 100 120 140 160 180 200 
迭代 次 数 


图 7-6 MovieLens 100k 不 同 算法 的 RMSE 值 对 比 


从 图 7-6 和 图 7-7 中 可 以 看 出 ,在 两 个 数据 集 上 ,本 章 的 TAR-BP 算法 都 较 
PMF 算法 在 RMSE 上 提升 明显 ,而且 收 敛 快 ,RBPT 算法 在 Ciao 数据 集 上 相对 于 
传统 的 PMF 算法 精度 提升 为 13. 61% ,在 FilmTrust 数据 集 上 精度 提升 15.5296. 
提升 效果 显著 ,说 明 本 章 提 出 的 的 RBPT 算法 具有 一 定 的 优越 性 。 

从 和 迭代 图 ,可 得 到 如 下 结论 : 

(1) 高 效 准 确 地 处 理 大 规模 数据 ; 

(2) 本 章 的 IAR-BP 算法 比 其 他 单纯 利用 用 户 项 目 评 分 矩阵 信息 的 方法 效果 
要 好 。 
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图 7-7 MovieLens 1M 不 同 算法 的 RMSE 值 对 比 
随 着 迭代 次 数 的 增加 模型 逐步 收敛 ,本 章 的 算法 仍然 取得 较 好 的 结果 , 表 7-2 
所 列 为 不 同 迭 代 次 数 在 实验 数据 集 上 推荐 精度 的 变化 。 
m 不 同和 迭代 次 数 在 实验 数据 集 上 的 推荐 精度 















































数 据 集 迭代 次 数 T-SVD PMF ALS IAR-BP 
10 1, 2858 1. 4119 0. 9683 0. 9656 
50 1.0359 0. 9769 0. 9300 0. 9390 
MovieLens 100k 100 1.0160 0. 9553 0.9314 0.9241 
150 1.0162 0. 9409 0. 9327 0.9181 
200 1.0193 0. 9407 0. 9326 0. 9159 
10 1. 4323 1. 4913 0. 9150 0. 9017 
50 1. 0338 1. 0481 0. 8836 0. 8751 
MovieLens 1M 100 0. 9647 1.0157 0. 8830 0. 8602 
150 0. 9407 0. 9577 0. 8861 0. 8542 
200 0. 9287 0. 8990 0. 8889 0. 8520 


K 7-3 所 列 为 不 同 算法 在 实验 数据 集 上 推荐 精度 的 变化 , 列 出 的 是 不 同 算法 
在 Ciao 数据 集 和 FileTrust 数据 上 观测 到 的 推荐 精度 。 


R73 不 同 算法 在 实验 数据 集 上 的 推荐 精度 




















算 法 
数 据 集 
PMF SocialReg BiasPMF IAR-BP 
Ciao 1.090 1.0460 0.9573 0. 9541 
FilmTrust 0. 9441 0. 8006 0. 7950 0. 7889 
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本 章 小 结 


本 章 提出 一 种 基于 项 目 属性 改进 的 概率 矩阵 分 解 方法 ,首先 提出 一 种 项 目 属 


性 相似 度 的 计算 方法 ,然后 将 相似 度 作 为 正则 项 融入 到 概率 矩阵 分 解 框架 中 ,将 项 
目的 潜在 因子 向 量 依赖 于 和 其 相似 的 其 他 项 目 。 最 后 在 不 同 数据 集 通过 不 同 的 比 
较 , 结 果 表 明 本 章 的 算法 比 传 统 的 算法 效果 要 好 、 训 练 快 ,精度 高 。 
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第 8 至 | 基于 交替 最 小 二 乘 的 改进 
ae 概率 和 矩阵 分 解 算 法 





本 章 针 对 概率 矩阵 分 解 对 初始 值 敏感 的 问题 ,融合 用 户 项 目 偏 置信 息 提出 一 
种 基于 交 蔡 最 小 二 乘 的 改进 算法 。 将 分 解 得 到 的 潜在 因子 作为 交替 最 小 二 乘 的 初 
始 值 以 提升 推荐 精度 。 实 验 结 果 表 明 ,本 章 提出 的 算法 在 推荐 精度 上 提升 显著 。 


8.1 引言 


概率 矩阵 分 解 算法 是 解决 信息 过 载 的 有 效 手 段 ,但 在 研究 中 经 常 面临 高 维 稀 
玻 性 带 来 的 推荐 精度 不 高 的 问题 ,许多 学 者 提出 一 些 改进 算法 来 缓解 。 例 如 , 梅 忠 
等 人 提出 一 种 项 目 属性 约束 的 概率 矩阵 分 解 算法 ,实验 结果 验证 了 改进 算法 的 有 
效 性 。 然 而 这 类 改进 算法 没有 考虑 到 用 户 的 兴趣 差异 ,不 能 体现 用 户 间 的 偏好 , 导 
致 对 于 高 维 稀疏 数据 推荐 效果 往往 难以 得 到 保证 。 

结合 前 人 的 研究 发 现 ,很 少 有 文献 针对 初始 值 对 概率 矩阵 分 解 的 影响 进行 研 
究 , 因 此 本 章 将 结合 交 蔡 最 小 二 乘 算法 来 训练 概率 矩阵 分 解 模型 ,本 节 的 观点 基于 
如 下 两 个 既得 事实 : 

(1) 不 同 用 户 对 不 同 项 目 有 不 同 的 偏好 ,例如 文章 食物 等 

(2) 通过 分 解 用 户 项 目 评分 矩阵 能 得 到 用 户 和 项 目的 隐 式 空间 和 矩阵。 





8.2 交替 最 小 二 乘 


理论 研究 表明 ,交替 最 小 二 乘 (Alternating Least Squares, ALS) 随 着 迭代 的 进 
行 误差 会 逐步 降低 直至 收敛 , ALS 完全 不 能 保证 将 会 收敛 至 全 局 最 优 解 ,而 且 在 
实际 应 用 中 ,ALS 对 初始 点 选取 较为 敏感 ,不 恰当 的 选择 会 导致 数据 振荡 地 收敛 
到 局 部 最 优 解 。 

首先 按 高 斯 分 布 初始 化 用 户 和 项 目的 潜在 因子 向 量 U 和 V。 

然后 固定 V, 将 损失 函数 对 V 求 偏 导 , 并 令 导 数 等 于 0, 得 到 新 的 用 户 潜在 因 
子 向 量 品 ,如 式 (8-1) 所 示 。 
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U < (VTV - AL)?! V7R (8-1) 
其 次 固定 口 ,将 损失 函数 对 UU 求 偏 导 ,并 令 导 数 等 于 0, 如 式 (8-2) 所 示 。 
V — (UTU+al)“UTR (8-2) 


式 中 : 4 一 一 正则 化 系数 ,需要 实验 确定 。 
最 后 便 可 利用 得 到 的 用 户 项 目 潜 在 因子 空间 U 和 进行 评分 预测 。 


8.3 Baseline 预测 


训练 推荐 算法 主要 是 来 训练 用 户 和 项 目的 交互 关系 ,并 不 是 具体 的 用 户 项 目 评 
分 矩阵 ,如 图 8-1 所 示 是 偏 置信 息 。 从 图 8-1 可 以 看 出 3 个 用 户 (Jim、Lucy 和 Jack) 
对 3 部 电影 (A、B 和 C) 的 评分 情况 ,直观 上 看 用 户 Lucy A Jim. 比较 相似 ,然而 其 实 是 
Lucy 和 Jack 比较 相似 ,因为 对 于 电影 A 和 B. Lucy 更 偏好 电影 B, 这 和 Jack 是 一 臻 
的 ,然而 Jim 却 更 喜欢 电影 A, 一 般 将 这 些 用 户 的 个 人 评分 习惯 称 为 用 户 偏 置信 息 。 


© 9 9 


A B C 


dicione WWW WK 
Jim 
Bios: KINKI KINN 


Lucy 


iroto KANNI WHI 


Jack 
图 8-1 偏 置信 息 


另外 ,电影 本 身 ( 导 演 等 因素 ) 和 数据 集 本 身 ( 网 站 等 因素 ) 也 有 偏 置信 息 在 内 ， 
加 入 偏 置 信息 的 评分 预测 算法 如 式 (8-3) 所 示 。 
Ry = p+ bu Cu) +bi G) (8-3) 
式 中 ; R,—— HP u 对 项 目 i 的 预测 评分 ; 
/一 一 数据 集 的 总 体 偏 置信 息 ; 
buCu) 用 户 x 的 偏 置信 息 ; 
bi(i) RE IS EE E. 
例如 ,要 预测 用 户 u 对 电影 i 的 打分 ,假设 电影 数据 集 总 体 偏 置 y 为 3.4 分 ， 
电影 i 的 口碑 比 其 他 电影 高 0.9 分 , 即 5i(i) —0.9; 另外 ,用 户 是 一 个 悲观 的 用 
P ,一 般 偏向 于 给 电影 打 低 分 (0.3 分 ) HIE bua) = —0. 3. BAH PF u 对 电影 i 的 
预测 打分 为 3.4 十 0. 9 一 0.3 二 4 分 。 加 入 偏 置信 息 后 ,目标 函数 如 式 (8-4) 所 示 。 


argmin( >, (Ru — p — bu (u)— bi (1) )* 4 











Ay D7 bu (u)? +22 >) bi (i?) (8-4) 





100 A 机 器 学 习 算 法 实践 一 一 推荐 系统 的 协同 过 滤 理 论 及 其 应 用 


实际 应 用 中 往往 根据 经 验 似 然 采用 式 (8-5) 所 示 的 方法 来 求解 欠 和 bu 的 值 。 
2) quu) 


uER(D 


Ai + [R@ | 
D (Ru —p— 60i) 


i€ RW) 


Ar + |RGO | 


bi — 
(8-5) 
bu = 


式 中 : u 


i 





某 一 用 户 ， 

某 一 项 目 ; 

RG) 评价 过 项 目 i 的 用 户 集合 ; 
Ru) 用 户 u 评价 过 的 项 目 集合 
1 和 Xs 一 一 压缩 系数 ,需要 实验 确定 。 











8.4 IPMF 算法 


8.4.1 算法 改进 思想 


数据 的 高 维 稀 朴 性 带 来 的 推荐 精度 较 低 的 问题 是 个 性 化 推荐 过 程 中 最 为 
显著 的 问题 之 一 ,许多 学 者 提出 一 系列 相关 算法 来 解决 ,应 用 到 推荐 系统 中 的 
比较 有 代表 性 的 矩阵 分 解 方法 有 Truncated-SVD 算法 以 及 ALS 算法 。 
Truncated-SVD 简称 T-SVD 算法 ,相对 传统 SVD 来 说 只 计算 用 户 指定 的 前 
k 维 最 大 奇异 值 ,在 不 损失 推荐 精度 的 前 提 下 总 体 复杂 度 更 低 , 具 体 来 说 训练 
得 到 左 奇异 矩阵 U、 右 奇异 矩阵 V 和 奇异 值 和 矩阵 S, 然 后 选择 S 中 前 & 维 的 值 
奇异 值得 到 VS(C&) ,初始 用 户 潜在 因子 矩阵 为 USU * VS) ,初始 项 目 潜在 
因子 矩阵 为 V 王 V。 VS) ,ALS 可 以 认为 是 T-SVD 模型 的 并 行 化 实现 ,也 就 
是 说 可 以 先 固定 V( 例 如 ,随机 初始 化 V) ,求解 U, 然 后 固定 口 ,再 求解 V, 如 此 
交替 直至 收敛 。 两 种 模型 在 Netflix 推荐 竞赛 以 及 在 KDD Cup 竞赛 中 都 取得 
了 非常 优异 的 成 绩 , 说 明 这 两 种 模型 是 当前 较为 流行 的 模型 ,也 从 侧面 证 明 本 
章 的 研究 较 有 价值 。 

结合 前 人 的 研究 ,本章 从 用 户 偏 好 的 角度 出 发 ,提出 一 种 融合 用 户 项 目 偏 置信 息 
的 概率 矩阵 分 解 算法 , 称 为 IPMF(Improved Probabilistic Matrix Factorization) 。 首 先 
将 偏 置 信息 融入 到 PMF 中 以 提升 推荐 的 精度 ,然后 结合 最 大 似 然 估计 把 评分 预测 
问题 转化 为 最 优化 问题 ,通过 ALS 来 求解 最 优化 问题 ,进而 得 到 U 和 V, 最 后 结合 
U fll V 的 内 积 进行 评分 预测 。 


8.4.2 算法 流程 


HED PMF 算法 并 没有 考虑 到 用 户 项 目的 偏 置 信息 ,同时 用 户 潜在 因子 矩阵 和 
项 目 潜 在 因子 矩阵 是 由 均值 为 0 的 高 斯 分 布 随机 产生 的 ,这 会 影响 算法 的 训练 速 
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度 和 最 终 的 推荐 精度 ,鉴于 此 往往 首先 通过 T-SVD 算法 对 实验 数据 集 进行 初步 训 
练 , 以 此 作为 IPMF 算法 的 初始 值 ,同时 融入 Bias 信息 ,如 式 (8-6) 所 示 是 IPMF 算 
法 最 终 的 目标 函数 。 


N M 
L 一 argmin +>) | 1n (Ry — (p buCGD +iG) 4UTV,))? + 


N M 
各 IUE ME ) lv, Hi, + 2% 57 budD l? + 
22 2 





24 
> l oic n? (8-6) 
ste: E em 
bu 各 个 用 户 的 偏 置 向 量 ; 
bi 各 个 项 目的 偏 置 向 量 ; 





Au oa sav st 一 一 正则 化 参数 。 
对 式 (8-6) 求 偏 导 得 到 如 式 (8-7) 所 示 的 目标 函数 对 于 各 部 分 的 偏 导 数 计算 公 
式 。 另 外 值得 注意 的 一 点 是 ,和 传统 算法 不 同 的 是 本 章 的 算法 需要 对 数据 集 的 偏 
置 进行 更 新 。 


M 
9L 2 Y BE Gebel) FAL) EUTV, )- Rs IV) EAU, 
je 














aU, 
JI ` 
T = > B [ (ue +buG) +biG)+UTV;)— Ry JU; +avV; 
Lad i=1 
Ji z 
505 = >) IE[(p--buCGD + biG) -HUTV;)— Ry ]--Aubu (i). (8-7) 
^ i=1 
JI > 
SS) IEE (et buG) bi) +UTV;)— Ry ]+ànbi (i) 
Ibi (j) i=1 
aL 


a DDE [e+ bu G) + biG) + UTV; )— Ry J 
接着 按照 式 (8-8) 所 示 进 行 参 数 更 新 ,其 中 7 为 SGD 的 学 习 速 率 。 为 了 降低 


模型 的 复杂 度 ,实验 中 往往 人 为 指定 学 习 速 率 。 

















aL 
U-—-U-n*53j 
aL 
V-V- 3y 
bu — bu — q» 2E (8-8) 
bi bi —9 x 
aL 
pn— 5. 
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如 式 (8-9) 所 示 是 本 算法 的 最 终 评分 预测 公式 。 


Ry = p+ bu G) +bi G) --UTV, (8-9) 
最 终 的 算法 流程 如 算法 8-1 所 示 。 


算法 8-1 IPMF 算法 

输入 : 用 户 项 目 评分 矩阵 Rym ,正则 化 参数 ,SGD 迭代 次 数 工 ,分 解 维度 ko 
输出 : 用 户 和 项 目 潜 在 因子 矩阵 U 和 站 ,用户 偏 置 bu, 项 目 偏 置 和 总 体 偏 置 w。 
使 用 高 斯 分 布 初始 化 模型 参数 {U 王 randn(N,k) .V=randn(M.k)} s 
for =1,2,.…,T,do 

随机 从 Rvu 选 择 一 条 数据 ; 

根据 式 (8-5) 计 算 梯度 ; 

根据 式 (8-6) 更 新 参数 ; 

end for 
ALS 训 练 ; 
返回 U 和 V。 
算法 结束 





8.4.3 复杂 度 分 析 


对 IPMF 进行 计算 的 复杂 度 为 oCprk 十 MT) ,pr 为 Rv 中 已 评分 元 素 的 个 数 ， 
各 个 梯度 下 降 的 复杂 度 为 oC(prk* 十 MT)。 由 于 用 户 在 互联 网 中 评分 记录 服从 和 窒 律 
分 布 ,那么 M<pr ,最 终 的 算法 复杂 度 是 oCprk 十 5prk?)。 

EE URV 时 ,共有 NN 个 最 小 二 乘 子 问题 ,复杂 度 为 oCprk* 十 Nk ) ,加 上 
固定 V 求 U 时 的 复杂 度 ,总 的 复杂 度 为 oC(prk 十 5prk? 十 (M 十 N)), 可 以 看 出 本 
章 提出 的 算法 和 数据 量 pr 线性 相关 ,适用 于 大 规模 数据 集 。 


8.5 实验 结果 分 析 


为 了 不 失 一 般 性 ,一般 随 机 选择 90% 作 为 训练 数据 ,然后 预测 余下 的 10% , 通 
过 5 折 交 叉 验 证 来 确定 正则 化 参数 ,分 解 维度 选 为 &=5 RI k— 10 分 别 进行 实验 。 
本 章 的 实验 要 解决 如 下 几 个 问题 : 

(1) Baseline 预测 算法 的 参数 设 定 ; 

(2) Baseline, T-SVD, PMF 推荐 算法 作 比 较 ; 

(3) 正则 化 参数 入 和 潜在 因子 维度 对 对 推荐 质量 的 影响 。 


8.5.1 对 比 实验 设 定 
1. Baseline 预测 
之 所 以 选择 Baseline 预测 ,是 因为 其 推荐 精度 高 、 消 耗 时 间 较 短 。 
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2. ALS Sj , PMF 算法 和 Truncated-SVD 算法 

实验 中 为 了 降低 模型 的 复杂 度 ,本 章 人 为 指定 正则 化 系数 Au = Av —0. 01, F6 BE 
下 降 的 学 习 速 率 7 一 0. 03. 

8.5.2 实验 分 析 

1. BaseLine 预测 


如 图 8-2 所 示 是 在 MovieLens 数据 集 上 做 的 Baseline 预测 。 经 实验 发 现 , 当 
Ay =2,A.=5 时 RMSE 达到 最 优 ,最 小 值 为 0.9559 。 








图 8-2 ”Baseline 预测 


2. ALS 算法 

如 图 8-3 是 ALS 预测 ,该 预测 是 标准 ALS 算法 在 MovieLens 100k 数据 集 上 
的 实验 结果 ,图 8-3(a) 是 随机 进行 5 次 ALS 实验 ,图 8-3(b) 是 其 中 某 一 次 的 ALS, 
从 图 中 可 以 看 出 ,由 于 ALS 算法 初始 值 的 随意 选择 ,导致 ALS 每 次 的 结果 都 不 一 
样 ,而 且 初 始 迭 代 比 较 振荡 ,说明 标准 的 ALS 算法 对 初始 值 较为 敏感 ,不 仅 影响 推 
荐 精度 ,也 影响 训练 速度 。 

3. ALS-PMF 对 比 

如 图 8-4 是 在 不 同 潜在 因子 维度 上 下 PMF 与 ALS 的 算法 对 比 图 ,图 8-4(a) 
AE k=5 的 情况 ,图 8-4(b) 是 二 10 的 情况 。 从 图 中 可 以 看 出 ,不 同 潜在 因子 维度 
& 下 ,标准 ALS fl PMF 算法 的 迭代 曲线 基本 不 变 , 但 是 最 终 的 推荐 精度 不 一 样 ， 
说 明 在 实际 应 用 中 潜在 因子 维度 的 选择 十 分 重要 。 另 外 值得 注意 的 是 ,并 不 是 
k 越 大 推荐 精度 越 高 ,这 是 因为 矩阵 分 解 算法 假设 原始 评分 和 矩阵 是 低 秩 的 ,过 大 的 
k 可 能 会 引入 噪声 ,进而 降低 推荐 精度 。 
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图 8-3 ALS 预测 


4. 正则 化 参数 

不 仅 潜在 因子 维度 影响 推荐 精度 ,正则 化 参数 也 是 影响 推荐 精度 的 重要 因素 ， 
如 图 8-5 所 示 为 不 同 & 值 RMSE 随 着 4 的 变化 曲线 ,图 8-5(a) 是 k= 二 5 时 正则 化 
参数 4 对 推荐 质量 的 影响 ,图 8-5 Cb) SE R=10 BE A 对 推荐 质量 的 影响 。 从 图 中 可 
以 看 出 , 当 4 小 于 一 定 值 时 ,RMSE 值 基 本 处 于 下 降 的 状态 ; 随 着 4 再 次 增加 ， 
RMSE 又 开始 处 于 上 升 的 态势 ,最 终 在 k= 二 5,4 二 0.4 时 ,RMSE 达到 最 优 ; E R= 
10,A=0. 6 H}, RMSE 达到 最 优 。 
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图 8-4 ALS 5j PMF 在 不 同上 值 的 对 比 


5. 实验 对 比 

为 了 更 直观 地 凸显 本 章 算法 的 优点 ,绘制 如 图 8-6 所 示 不 同 算法 的 推荐 质量 
随和 迭代 次 数 的 变化 情况 ,所 含 的 算法 包括 ALS, T-SVD, PMF, IPMF 随 着 迭代 次 数 
在 不 同 数据 及 上 的 变化 曲线 。 从 图 8-6 中 可 以 看 出 ,本 章 提 出 的 算法 无 论 & 为 多 
少 ,在 RMSE 上 的 推荐 精度 都 是 最 高 的 ; 同时 从 图 中 可 以 看 出 本 章 算法 结果 较为 
稳定 ,从 侧面 反映 出 本 章 的 算法 具有 一 定 的 鲁 棒 性 。 

K 8-1 为 不 同 对 应 的 RMSE 值 。 本 章 给 出 不 同 算法 在 不 同 & 值 下 最 终 的 
RMSE.£—5 时 ,本 章 算法 相对 于 标准 的 PMF 提高 3. 41%% .k=10 时 提高 2. 2396. 
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图 8-5 不 同 & 值 RMSE 随 着 4 的 变化 曲线 
表 8-1 不 同 k 值 对 应 的 RMSE 值 








RMSE 
k 
Baseline T-SVD PMF ALS IPMF 
k=5 0. 9553 0. 9535 0. 9517 0. 9329 0. 9176 


k—10 0. 9553 1.0154 0. 9488 0. 9396 0. 9265 
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图 8-6 不 同 算法 的 推荐 质量 随和 迭代 次 数 的 变化 情况 


本 章 小 结 


在 根据 传统 PMF 和 其 他 矩阵 分 解 方法 进行 研究 的 基础 上 ,本章 针对 优化 的 方 
法 展开 研究 ,提出 一 种 ALS 和 用 户 项 目 偏 置信 息 优化 的 概率 矩阵 分 解 算法 ,最 后 
通过 实验 验证 提出 算法 的 有 效 性 。 
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针对 社交 网 络 中 数据 稀疏 性 带 来 的 推荐 精度 不 高 的 问题 ,本 章 提 出 利用 
用 户 一 项 目 评分 矩阵 和 用 户 的 社交 网 络 信息 来 解决 数据 稀 玖 性 带 来 的 推荐 精 
度 不 高 的 问题 。 首 先 借鉴 用 户 普遍 的 认 知 心理 ,将 信任 作为 实体 决策 选择 时 
的 一 个 主观 概念 ,结合 客观 存在 的 评分 ,共同 评价 用 户 之 间 的 偏好 关系 。 然 后 
将 用 户 偏 置信 息 和 用 户 间 的 信任 关系 融入 传统 的 概率 矩阵 分 解 中 ,通过 随机 
梯度 下 降 来 获取 最 优 解 ,从 而 获得 对 原始 用 户 一 项 目 评分 矩阵 中 缺失 的 评分 
值 的 预测 。 实 验 结果 表明 本 章 提 出 的 算法 较 传 统 的 模型 在 推荐 精度 上 有 较 大 
提高 ,尤其 是 相对 于 PMF( Probabilistic Matrix Factorization) 算法 在 精度 方面 提 
i WEN 13% ~15%. 


9.1 引言 


随 着 Web 3.0 的 社交 网 络 平台 的 兴起 以 及 电子 商务 越 来 越 受 到 人 们 的 关注 ， 
网 络 中 的 信息 逐渐 增多 ,信息 总 量 超过 了 个 人 或 系统 所 能 接受 、 处 理 或 有 效 利用 的 
范围 ,大 量 无 关 的 宛 余数 据 信息 严重 干扰 了 受众 对 相关 有 用 信息 的 准确 选择 ,用 户 
寻找 自己 需要 的 信息 越 来 越 困 难 , 这 就 是 所 谓 的 “信息 过 载 ”。 信 息 过 载 是 信息 时 
代 信息 过 于 丰富 的 负面 影响 之 一 ,在 信息 过 载 背 景 下 ,推荐 系统 应 运 而 生 。 推 荐 系 
统 是 通过 分 析 用 户 或 者 项 目的 偏好 信息 ,找到 相似 用 户 群 体 或 者 相似 项 目 群 体 , 然 
后 根据 相似 用 户 群 体 或 者 项 目 群体 来 为 目标 用 户 提 供 个 性 化 的 推荐 ,包括 视频 、 书 
籍 .音乐 和 新 闻 等 。 由 于 巨大 的 潜在 商业 价值 ,推荐 系统 得 到 飞速 发 展 ,成 功 的 推 

荐 系统 如 商品 推荐 的 亚马逊 和 电影 推荐 的 Netflix 公司 。 

尽管 推荐 系统 在 工业 界 取得 巨大 成 功 ,然而 在 实际 应 用 中 也 存在 很 多 问题 ， 
其 中 最 为 典型 的 是 因为 评分 矩阵 的 稀 朴 性 而 造成 的 推荐 精度 不 高 问题 。 由 于 网 
络 中 的 数据 越 来 越 多 ,只 有 很 少数 的 用 户 会 对 同一 个 项 目 进行 评分 ,有 很 多 项 目 
根本 没有 评分 ,因此 数据 稀 玻 性 问题 越 来 越 严重 ,推荐 系统 的 推荐 精度 也 在 逐渐 
下 降 。 
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为 了 提高 推荐 的 精度 ,国内 外 学 者 进行 了 广泛 的 研究 ,矩阵 分 解 模 型 因为 具 
有 较 好 的 推荐 效果 和 扩展 性 受到 了 越 来 越 多 的 关注 。 国 外 比较 有 代表 性 的 是 
Ruslan Salakhutdinov 等 人 在 文献 L1] 提 出 的 概率 和 矩阵 分 解 算法 并 在 同年 在 文献 
[2] 提 出 贝 叶 斯 概率 矩阵 分 解 算法 ; Koren 在 文献 [3] 中 对 隐语 义 模型 进行 了 描 
述 , 并 在 此 基础 上 结合 用 户 的 显 式 反馈 和 隐 式 反馈 提出 了 一 种 称 为 BiasedMF 的 
推荐 算法 ; Steffen Rendle 在 文献 L4] 中 利用 其 所 提出 libFM 实现 因子 分 解 机 的 
相关 算法 。 国 内 比较 有 代表 性 的 有 东北 大 学 郭 贵 冰 副教授 所 领导 的 推荐 系统 团 
队 在 文献 L5] 设 计 开 发 的 libRec 推荐 系统 库 , 中 国 台湾 师范 大 学 林 智 仁 教 授 所 
领导 的 机 器 学 习 小 组 研发 的 业内 著名 的 libMF 矩阵 分 解 库 并 在 文献 L6] 中 了 予 
以 描述 。 

不 过 单纯 依靠 用 户 项 目 评分 信息 并 不 能 显著 提高 推荐 精度 ,同时 传统 推荐 算 
法 往往 有 很 严重 的 “ 马 太 效应 ”, 也 就 是 说 推荐 的 商品 往往 都 是 热门 的 商品 ,这 样 造 
成 热门 的 商品 更 加 热门 ,而 处 在 "长 尾 分 布 " 上 的 商品 得 不 到 重视 ,为 此 人 们 不 得 不 
寻找 其 他 资源 ,其 中 信任 网 络 就 是 一 种 可 以 利用 的 资源 。 例 如 ,文献 L7] 提 出 一 种 
基于 用 户 社交 间 社 交 关 系 的 推荐 系统 ,文献 [8] 提 出 一 种 改进 的 信任 传播 算法 并 应 
用 到 基于 图 的 聚 类 算法 中 ,实验 结果 表明 加 入 信任 不 仅 推荐 结果 精准 而 且 往 往 会 
有 意 想不到 的 效果 。 实 际 生 活 中 也 是 如 此 ,例如 , 当 一 个 人 选择 去 餐馆 时 ,很 可 能 
会 根据 自己 的 口味 然后 结合 好 友 推 荐 的 意见 选择 菜品 。 

本 章 主 要 针对 PMF (Probabilistic Matrix Factorization) 算 法 进行 研究 ,PMF 
把 用 户 项 目 评分 矩阵 作为 唯一 的 信息 源 , 忽 略 了 用 户 之 间 的 社会 关系 ,导致 推荐 结 
果 可 能 偏离 用 户 的 需求 ; 同时 ,由 于 算法 假设 用 户 和 用 户 之 间 、 项 目 和 项 目 之 间 独 
立 同 分 布 ,没有 考虑 到 用 户 之 间 的 社交 关系 以 及 用 户 和 项 目 本 身 的 差异 ,不 能 显著 
提高 推荐 质量 ,尤其 对 于 高 维 稀疏 数据 推荐 效果 往往 难以 得 到 保证 。 

本 章 的 观点 基于 如 下 假设 : 

(1) 不 同 用 户 对 同一 项 目 有 不 同 的 偏好 ,就 电影 来 说 ,并 不 是 所 有 人 都 喜欢 恐 
怖 片 ; 同 理 ,用 户 对 不 同 项 目 也 有 不 同 的 偏好 。 

(2) 用 户 项 目 评分 矩阵 包含 宛 余 信 息 , 用 户 和 项 目的 隐 式 特征 能 够 通过 分 解 
用 户 一 项 目 评分 和 矩阵 得 到 。 

(3) 用 户 会 很 容易 受 其 所 信任 的 朋友 影响 ,从 而 偏好 于 朋友 的 推荐 , 即 如 果 用 
P u 信任 用 户 w ,那么 这 两 个 用 户 的 消费 记录 也 会 很 相似 。 

基于 以 上 假设 ,本 章 从 信任 的 角度 出 发 ,提出 一 种 称 为 RBPT(Recommendation 
with Bias Probabilistic Matrix Factorization and Trust relations) 的 算法 ,利用 用 户 项 目 
评分 矩阵 和 用 户 的 社交 网 络 信息 来 解决 数据 稀 朴 性 带 来 的 推荐 精度 不 高 的 问题 。 
实验 结果 表明 ,本章 的 算法 能 够 有 效 缓解 由 数据 的 高 维 稀疏 性 带 来 的 推荐 精度 不 
高 的 问题 。 
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9.2 相关 工作 


9.2.1 推荐 系统 的 形式 化 


一 个 典型 的 推荐 系统 ,包括 一 个 含有 N 个 用 户 的 用 户 集合 U= 
{uy «ug ss av 和 M 个 项 目的 集合 TI= {i in vig eee sim} ,每 个 用 户 wEU 评价 
了 工 中 的 一 部 分 项 目 , 评 价 过 的 项 目 用 五 SI 表示 ,用 户 的 打分 记录 往往 表示 成 
Ry ,每 一 个 实体 Ru 表示 用 户 w 对 项 目 i 的 评分 ,通常 RC 15 的 整数 值 ,数据 
越 大 表示 用 户 对 该 项 目 越 满意 。 实 际 中 用 户 一 项 目 评分 矩阵 Rww 非 常 稀疏 ,因为 
用 户 往往 只 是 评价 过 一 部 分 项 目 , 例 如 Epinions 数据 集 和 Netflix 数据 集中 已 有 的 
评分 数目 所 占 比例 都 不 足 1 外 。 正 是 因为 稀 玻 性 ,传统 的 推荐 算法 的 质量 才 会 特 
别 差 。 

在 真实 世界 中 ,以 商品 购买 为 例 , 用 户 的 购买 意图 受 两 方面 的 影响 , 即 用 户 本 
身 的 需要 和 用 户 的 朋友 的 推荐 程度 。 如 图 9-1 所 示 为 基于 社交 网 络 的 推荐 机 制 示 
例 , 图 9-1(a) 所 示 是 用 户 的 信任 网 络 图 ,该 图 是 一 个 有 向 图 ,包含 5 个 节点 (用 户 
数 ),9 条 边 ( 用 户 信任 关系 数 ) ,每 个 节点 代表 一 个 用 户 , 节 点 i 到 节点 j 的 边 表示 
用 户 uif fEJH u; , 边 的 权重 表示 信任 程度 的 大 小 。 注 意 用 户 间 的 信任 关系 是 非 
对 称 的 ,例如 用 户 us fii E us ,但 是 ws 就 不 信任 u o 

图 9-1(b) 是 对 应 的 用 户 一 项 目 评分 矩阵 ,矩阵 中 已 有 的 值 表示 用 户 对 项 目的 
评分 ,缺失 部 分 是 需要 预测 的 。 以 看 电影 为 例 ,假设 用 户 ul 想 看 电影 vi ,但 是 该 用 
户 对 该 电影 一 无 所 知 , 那 么 该 用 户 就 会 求助 于 其 所 信任 的 朋友 w 和 wu,us 对 该 电 
影 的 评分 是 3 分 ,wu 是 5 分 ,那么 该 电影 很 可 能 会 吸引 到 用 户 wi ,也 就 是 wi 对 vi 的 
评分 也 可 能 很 高 。 系 统 的 目标 就 是 利用 评分 矩阵 和 信任 关系 精准 有 效 地 预测 用 户 

















对 未 评 过 分 项 目的 评分 。 
u —— 
i i i iy is 
uy 5 2 3 
uz 4 3 
uz 2 4 
uy 5 3 1 
Us 5 5 
(a) 用 户 间 社交 网 络 (b) 用 户 项 目 评分 矩阵 














图 9-1 基于 社交 网 络 的 推荐 机 制 示例 
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9.2.2 ”矩阵 分 解 与 推荐 系统 


近年 来 矩阵 分 解 技 术 由 于 其 良好 的 可 扩展 性 和 较 高 的 推荐 精度 吸引 了 国内 外 
学 者 的 广泛 关注 ,尤其 是 经 过 Netflix 推荐 竞赛 后 。 和 矩阵 分 解 技术 假设 用 户 的 偏好 
和 项 目的 特征 能 通过 一 些 潜在 因子 来 描述 ,对 于 原始 评分 矩阵 ,找到 一 个 与 原始 评 
分 矩阵 尺 相 符合 的 低 秩 近似 矩阵 尺 ,使 得 原始 矩阵 R 中 的 实际 评分 与 R' 中 的 预 
测评 分 之 间 的 距离 平方 和 最 小 。 对 于 NXM 的 用 户 一 项 目 评 分 矩阵 R , E EEA fie 
的 目标 是 找到 合适 的 值 上 ,结合 现 有 的 数据 利用 R' 二 UTV 来 近似 原 有 的 矩阵 ,其 中 
UE RW .VE R" ,再 利用 计算 出 的 用 户 和 项 目的 特征 向 量 就 可 以 对 原始 用 户 一 项 
目 评分 矩阵 中 缺失 的 评分 值 进 行进 一 步 预测 。 比 较 有 代表 性 的 有 概率 矩阵 分 解 、 
贝 叶 斯 概率 矩阵 分 解 以 及 由 中 国 台湾 林 智 仁 教 授 所 提出 的 快速 并 行 矩 阵 分 解 。 

基于 和 矩阵 分 解 的 推荐 算法 是 一 种 学 习 型 算法 ,通过 优化 预先 设 定 的 目标 函数 
从 而 得 到 全 局 最 优 解 ,而 且 由 于 潜在 因子 的 数量 二 二 min(m,n), 算 法 离线 计算 的 
空间 复杂 度 低 ,这 在 当今 大 数据 的 环境 下 具有 很 强 的 实用 价值 ; 同时 ,由 于 该 算法 
有 一 个 全 局 的 目标 函数 使 得 算法 的 预测 准确 率 高 。 优 化 目标 函数 往往 通过 随机 梯 
度 下 降 (Stochastic Gradient Descent,SGD) 来 实现 , 它 是 基于 这 样 的 事实 : WK 
数 在 某 点 处 可 微 且 有 定义 ,那么 在 该 点 处 沿 着 梯度 相反 的 方向 函数 值 增加 得 最 快 ; 
如 果 要 求 出 目标 函数 的 极 小 值 ,那么 在 迭代 的 每 一 步 可 以 沿 着 当前 点 的 负 梯 度 方 
向 搜索 下 一 个 点 ,使 得 每 次 迭代 都 能 够 使 目标 函数 值 逐 步 减 小 ,直至 允 近 目标 函数 
的 局 部 极 小 值 点 。 


9.3 概率 矩阵 分 解 


概率 矩阵 分 解 模型 是 矩阵 分 解 模 型 中 应 用 非常 成 功 的 一 个 推荐 模型 ,由 H. 
Shan 和 A. Banerjee 于 2007 年 提出 ,该 模型 在 Netflix 推荐 竞赛 以 及 KDD Cup 竞 
赛 中 都 取得 了 非常 优异 的 成 绩 。 

概率 矩阵 分 解 的 基本 思想 是 在 矩阵 分 解 的 基础 上 引入 概率 的 思想 ,首先 假设 
用 户 对 项 目的 真实 评分 与 预测 评分 的 误差 评分 服从 均值 为 0 的 高 斯 分 布 ,如 式 (9-1) 
所 示 。 

Rs -— UTV;-p(R; =UV; [0,0 ) 
Sp (R; |UTV;.o) (9-1) 

其 次 ,假设 用 户 和 商品 的 特征 向 量 和 矩阵 都 符合 均值 为 0 的 高 斯 分 布 ,如 式 (9-2) 
所 示 。 


p(Ulo)= [| (NW: |0,%)] 
p (9-2) 
eV Ie) I [NGOV; |0-0¢)] 
男 外 ,假设 用 户 之 间 的 评分 独立 同 分 布 ,服从 球形 高 斯 先 验 分 布 ,那么 评分 的 
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条 件 概 率 分 布 如 式 (9-3) 所 示 。 
p(R|U.V.0?)= [TI NGR; UTV, ,0)]™ (9-3) 


1 (R; uper) 
RP: N(R, lUTV; so) aem E . 


利用 贝 叶 斯 推导 ,可 得 用 户 和 物品 的 隐 式 特征 的 后 验 概率 ,如 式 (9-4) 所 示 。 
pU,V | Ro? ,o% ot) CpRIUVoE) XPpU | oio X p(V |) (9-4) 
对 上 述 预 测 公式 取 对 数 , 如 式 (9-5) 所 示 。 








lnp(U,V|R,o o}, D=- 3:3 (R; —UTV;)? — 


i=] j=l 





JS T 
zi UU: 2-931717 


N M 
i(( m Yu Jie + NDIngi +MD Ina | +C (9-5) 


i=l j=1 


式 中 ,C 一 一 不 依赖 于 参数 的 常数 。 
最 大 化 U 和 V 的 后 验 概率 等 于 最 小 化 式 (9- 的 5 


LUV)=L Ye (Ry —UTV,)? eR | U; 1 和 十 


i=1 j=l 





M 
>) | V;l& (9-6) 


j=l 

RP: p(A1B) 一 一 事件 B 发 生 的 情况 下 事件 A 发 生 的 条 件 概率 ; 
Au 和 vy 一 一 正则 化 系数 ,防止 过 拟 合 ; 
N Gx | po? ) 一 一 期 望 为 1; 方差 为 o 的 高 斯 分 布 ; 
1 一 一 指示 函数 ,如 果 用 户 i 选择 了 商品 j ,1 二 1, 否 则 为 0。 

为 了 不 失 一 般 性 ,往往 用 f (n) — (x—1)/ (Rssx 一 1) 把 实际 评分 映射 到 
(0,1], 用 g(x) 二 1/ (1 十 exp(zx)) 把 预测 评分 映射 到 (0,1],Rx 为 数据 集中 的 最 
大 评分 值 。 

最 终 目标 函数 如 式 (9-7) 所 示 。 

N M 
L(U.V)- 32] OT (Ry — (UV)! + 


im1 j-1 


du SS aws 
7 24 VU. Wb +O IV Ul be (9-7) 
i=1 j=l 
矩阵 的 范 数 。 


9.4 主要 研究 内 容 


9.4.1 基于 社交 网 络 的 改进 概率 矩阵 分 解 
如 何 借助 其 他 信息 改善 推荐 系统 的 推荐 质量 成 为 推荐 领域 广泛 关注 的 热点 问 


xh. Fro 
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题 , 下 面 将 首先 对 用 户 项 目的 偏 置 信息 进行 说 明 , 然 后 阐述 如 何 将 用 户 的 社交 网 络 信 
息 融入 矩阵 分 解 ,并 描述 本 章 所 提出 的 RBPT 算法 ,最 后 对 本 章 的 对 比 实验 进行 说 明 。 

1. 用 户 项 目 偏 置信 息 

观测 到 的 评分 数据 有 一 些 是 和 用 户 或 物品 无 关 的 因素 产生 的 效果 , 即 一 部 分 
因素 是 和 用 户 对 物品 的 喜好 无 关 而 只 取决 于 用 户 或 物品 本 身 特 性 。 例 如 ,乐观 型 
用 户 的 评分 行为 普遍 偏 高 ,而 悲观 型 用 户 的 评分 记录 普遍 偏 低 , 也 就 是 说 即使 这 两 
类 用 户 对 同一 项 目的 评分 相同 ,但 是 对 该 物品 的 喜好 程度 却 并 不 一 样 。 同 理 , 对 同 
一 件 ( 类 种) 物品 来 说 ,以 电影 为 例 , 受 大 众 欢迎 的 电影 得 到 的 评分 普遍 偏 高 ,而 一 
些 烂 片 的 评分 普遍 偏 低 , 这 些 因素 都 是 独立 于 用 户 或 产品 的 因素 ,而 和 用 户 对 物品 
的 喜好 无 关 。 本 章 将 这 些 独 立 于 用 户 或 物品 的 因素 称 为 偏 置 (Bias) 信 息 , 加 入 偏 
置信 息 的 评分 预测 算法 如 式 (9-8) 所 示 。 


Ru = ud bu(u)d bi (1) (9-8) 
RP: R,—— HP i 对 项 目 j 的 预测 评分 ; 
4 一 一 数据 集 的 总 体 偏 置信 息 ; 
bu( 站 一 一 用 户 i 的 偏 置信 息 ; 
bi(j) 一 一 项 目 j 的 偏 置信 息 。 
例如 ,要 预测 用 户 user] 对 电影 moviel 的 打分 ,假设 电影 数据 集 总 体 偏 置 pe 
为 3.4 分 ,电影 moviel 的 口碑 比 其 他 电影 高 0.9 分 , 即 bi(moviel) = 0.9; 另 一 
方面 ,用 户 userl 是 一 个 悲观 的 用 户 , 一 般 偏 向 于 给 电影 打 低 分 (0.3 分 ), 即 
buCuserl) = 一 0.3, 那 么 用 户 userl 对 电影 moviel 的 预测 打分 为 3.4 十 0. 9 一 
0. 3 一 4 分。 
2. 社交 网 络 正 则 化 
如 果 wi 信任 wa, 那么 这 两 个 用 户 的 用 户 潜在 因子 空间 也 要 很 相似 ,相似 程度 
取决 于 u 对 ua 的 信任 程度 ,通过 最 小 化 用 户 us 和 ws 的 欧 氏 距离 ,如 式 (9-9) 
所 示 。 
N 
min >>) NY Ta || u: — ua |2 (9-9) 


i=1 d€ Trust(i) 


用 户 wi 信任 的 用 户 集合 ,信任 的 计算 如 式 (9-10) 所 示 。 


A- (ua) 
Ti | -1 
id AF Qu) A- (ua) (9-10) 


式 中 : A* Qu) — HIP wi; 在 信任 网 络 中 的 出 度 , 也 就 是 用 户 ww 信任 的 用 户 个 数 ; 
A^ (ua) — HP! wu 在 信任 网 络 中 的 入 度 ,也 就 是 用 户 us 被 信任 的 用 户 信 任 
的 次 数 。 
式 (9-10) 出 于 现实 中 这 样 的 考虑 : 一 个 用 户 被 信任 的 次 数 越 多 ,那么 越 值 得 
被 信任 ; 一 个 用 户 信 任 的 人 越 多 ,那么 其 对 陌生 人 也 就 更 倾向 于 信任 ,但 是 信任 程 
度 会 较 低 , 开 根 号 是 为 了 降低 信任 关系 对 模型 的 影 


式 中 ,Trust(z) 
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3. RBPT 算法 

结合 偏 置 信息 和 社交 网 络 正则 化 ,本 章 提出 一 种 称 为 RBPT 的 算法 模型 ,在 传 
统 PMF 算法 的 基础 上 ,结合 用 户 项 目的 偏 置信 息 来 提高 推荐 精度 ,同时 借鉴 用 户 
普遍 的 认 知 心理 将 信任 作为 实体 决策 时 的 一 个 主观 考量 ,通过 在 PMF 目标 函数 最 
后 加 入 如 式 (9-9) 所 示 的 正则 项 来 进一步 提高 推荐 精度 ,本 算法 的 最 终 目 标 如 
式 (9-11) 所 示 。 


N M 


L(R.T.U,V)-3- ST) ER, — g(p -buGD "bi D) -UTV)]' F 
i=] j=1 
> À 
£» >) Ta luulit WUE + 
i=] d€ Trust(i) 


Ày 2 Aww z H 2 Aoi s . ry 2 
守 TV 二 + 党 2 buo ESD) orp iit? (9-11) 
i=l i-l 
式 中 : Trust 0 HP u 信任 的 用 户 集合 ; 
Ay, I As; 用 户 项 目 偏 置信 息 的 正则 化 系数 ,防止 过 拟 合 。 
最 终 的 评分 预测 算法 如 式 (9-12) 所 示 。 
Ru = p+ bu (u)+ bi (i)--UTV, (9-12) 
式 中 ; 及 .一 一 根据 本 章 RBPT 算法 获得 的 预测 评分 ; 
/一 一 数据 集 的 总 体 偏 置 ; 
bu 一 一 各 个 用 户 的 偏 置 向 量 ; 
0i 一 一 各 个 项 目的 偏 置 向 量 。 
对 式 (9-11) 求 偏 导 得 到 式 (9-13) 。 


a ud ; 
AU = >) Fg’ (ut bu) d- bi G) -UTV Eglu + buli) + iG) +UTV,) — 
i j=l 








RylV; +8 2) Ta(Ui:—Ua)+8 2, Ts (U, U;))- A&U; 
d€ Trust(i) t€ Trusted( i) 
N 


AS = >) Ig (p d- buG) + bi G) +UTV) Leet bu Gi) +bi G) -HUTV) — 
ev i=1 


Ry JU; +avV; 





a N , 
bat = 2 Be’ (nt bu) + bi G) -FUTV )Lg (ut bu + bi G) + 
S i=1 


UTV;) — Ry ] + AnbuG) 














aL A "e 
TT = >) Ifg' (w+ buG) -- bi G) 4-UTV ) Lg (e+ bu G) + biG) +UTV;) 
j=l 


Ry] + Aubi G) 


M 
x = P3 I5g' (yu d- bu G) + bi Cj) --UTV) [g (e + bu G) + bi Cj) + UTV; ) FR;] 
en j=l 








(9-13) 
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9.4.2 算法 流程 


算法 基本 流程 如 算法 9-1 所 示 。 


算法 9-1: RBPT 算法 
输入 : 用 户 一 项 目 评分 矩阵 Ru ,用 户 项 目的 潜在 因子 矩阵 Uiw 和 Viw ,可 能 的 潜在 因子 
维度 &Vector, 可 能 的 最 优 信任 权重 betaVector, 算 法 最 大 和 迭代 次 数 maxEpoch, 前 后 均 方 根 误 
3€ (Root Mean Square Error. RMSE) Fl ffi Threshold; 同时 ,为 了 减少 模型 复杂 度 设 定 随 机 梯 
度 下 降 的 学 习 速率 ,观察 目标 函数 的 变化 情况 来 增 大 或 者 减 小 学 习 速 率 。 
输出 : 用 户 潜 在 因子 矩阵 U 和 项 目 潜在 因子 矩阵 V «JE P? fii bu 和 项 目 偏 置 刀 ,最 优 潜 
在 因子 维度 上 ,最 优 信任 权重 。 





步骤 1: 使 用 正 态 分 布 初始 化 Uiw = randn(k.N) x*0.01 和 Vim 二 randn(k,M)x*0.01, 其 
中 乘 以 0.01 是 为 了 防止 一 开始 UV 的 内 积 太 大 ,加 快 算法 收敛 速度 ; 

步骤 2: 针对 实验 所 用 数据 集 初始 化 kVector 二 30 : 5 : 120( 表 示 & 从 30 遍历 到 120, 以 5 
为 间隔 ) ,初始 化 betaVector=[0. 001 0.01 0. 1 1 10 100]( 表 示 beta 从 0. 001 遍历 到 100, 每 
次 扩大 10 È); 

步骤 3: 根据 Rvw 计 算 初始 化 得 到 数据 集 的 总 体 偏 置 y; 

步骤 4: 初始 化 用 户 偏 置 向 量 bu= randn(N k) * 0.01 和 项 目 偏 置 向 量 bi 二 randn(M,k) 
* 0.01; 

步骤 5: 根据 式 (9-11) ,结合 SGD 进行 训练 ,参数 的 迭代 过 程 如 式 (9-14) 所 示 ; 

for MIRER HA KERK maxEpoch do 
随机 选择 一 条 评分 记录 , 按 式 (9-14) 进 行 更 新 ; 








U=U-a+5q 
= Vig 2k 
V=V-a av 
a 

bu = bu — a» 2L (9-14) 
_ SE 
bi = bi —a Obi 
a 2r 
4-— para 
w=! n 


真实 评分 数据 索引 R. 工 一 Rsw 二 0; 
计算 均 方 根 误差 RMSE=norm((UTV-Ryw) * R_L.'Fro')/sqrt(sum(R_L)); 
让 上 一 次 和 下 一 次 迭代 的 RMSE 大 于 Threshold 
continue; 
else 
算法 结束 ; 
end if 
end for 
步骤 6: 根据 每 次 选择 的 & 和 绘制 RMSE 随 着 迭代 次 数 的 变化 曲线 , 选 定 RMSE 最 小 时 
的 作为 最 优 值 
算法 结束 
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9.4.3 算法 复杂 度 分 析 


对 式 (9-11) 进 行 计算 的 复杂 度 为 O(pgk 十 murd ) or AR 中 已 评分 元 素 的 个 
Bur 为 一 个 用 户 平均 信任 的 用 户 个 数 。 梯 度 下 降 的 复杂 度 为 OCprk? 十 m Cur + 
utd) .OCprk*)O(Cprk*)、O(Cprk?) 和 OCprk*)O(Cprk?) ,其 中 xu4 表 示 一 个 用 户 平均 
被 信任 的 用 户 个 数 。 

由 于 用 户 在 互联 网 中 评分 记录 和 信任 记录 服从 和 客 律 分 布 ,长 尾 上 的 用 户 往 往 
只 有 很 少 的 用 户 信任 数目 ,那么 mur  ogmu rt pg s [8] FE «mur pemu 7 or ,那么 
算法 最 终 的 复杂 度 是 OCprk + 3pgk ^ )OC ork + 3pxk? ) ,可 以 看 出 本 章 提出 的 RBPT 
算法 与 pr 线性 相关 ,适用 于 大 数据 集 。 


9.5 实验 分 析 


本 节 首 先 介绍 实验 中 的 数据 来 源 和 评价 指标 ,然后 介绍 实验 参数 的 确定 ,最 后 
进行 对 比 实验 ,并 分 析 实 验 结果 。 为 了 不 失 一 般 性 ,随机 选择 90% 作 为 训练 数据 ， 
然后 预测 余下 的 10% 的 推荐 精度 ,做 5 折 交 叉 验证 , 取 平 均值 。 

本 章 的 实验 主要 解决 如 下 几 个 问题 : 

CD 潜在 因子 的 维度 对 推荐 质量 的 影响 ; 

(2) 用 户 项 目 偏 置信 息 对 推荐 精度 的 影响 ; 

(3) 潜在 因子 维度 对 推荐 质量 的 影响 ; 

CA) 社交 网 络 信息 对 推荐 结果 的 影响 ; 

(5) 信任 因子 如 何 影 响 推 荐 质量 ; 

(6) 社交 网 络 正 则 化 对 推荐 质量 的 影响 ; 

CL) 和 其 他 和 矩阵 分 解 结合 信任 的 推荐 算法 做 比较 。 

不 失 一 般 性 ,为 了 降低 模型 复杂 度 ,本 章 实 验 统一 设置 正则 化 因子 Ay = Av = 
Abu 二 Ni 二 0.01, 设 置 SGD 的 学 习 速 度 a=0. 03, 


9.5.1 实验 数据 集 


为 了 充分 地 验证 RBPT 算法 的 性 能 ,同时 考虑 到 内 存 限制 ,本章 选用 两 个 数据 
挖掘 领域 公开 可 用 的 数据 集 Ciao 和 FilmTrust。Ciao 数据 集 是 由 JiliangTang 
等 人 在 2012 年 挖掘 于 网 上 社区 ,该 数据 集 是 “Ciao is a multi-million-strong online 
community” 的 递归 缩写 ,评分 范围 是 1 一 5 的 整数 取 值 ,评分 间隔 为 1 分 。 
FilmTrust 数据 集 由 Golbeck 等 在 2009 年 挖掘 于 FilmTrust 网 站 ,评分 为 1( 极 差 ) 
到 10( 极 好 ) ,以 0.5 分 为 间隔 。 数 据 集 是 数据 挖掘 和 社交 网 络 推荐 中 广泛 使 用 的 
数据 集 , 包 括 用 户 项 目 评分 信息 和 用 户 之 间 的 信任 关系 。 数 据 集 的 具体 信息 如 
表 9-1 所 列 。 
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表 9-1 实验 所 用 数据 集 信息 











用 户 评价 用 户 信任 
数据 集 用 户 项 目 评分 电影 数目 信任 用 户 数目 
数目 数目 | 记录 数 最 大 人 BUM 记录 数 最 大 值 | 最 小 信 
Ciao 7375 106797 | 284086 1551 4 111781 804 0 
FilmTrust 1642 2071 35497 244 1 1853 59 0 

















为 什么 选用 这 两 个 数据 集 ? Oy 3c AS 2c d A Et BE Ay 9] 2 
0. 036% All 1.04% ,相对 于 Movielens100k(943 1682 100000) 的 6. 30% 来 说 更 加 
LI 


9.5.2. 实验 评价 标准 

为 检验 本 章 提 出 算法 的 推荐 质量 ,实验 采用 均 方 根 误差 (Root Mean Square 
Error, RMSE) 作 为 度量 标准 ,如 式 (9-15) 所 示 , 这 也 是 目前 最 常用 的 一 种 推荐 质 
量度 量 方法 ,通过 计算 预测 的 用 户 评分 与 实际 的 用 户 评 分 之 间 的 误差 平方 和 的 均 
方 根来 表示 预测 的 准确 性 ,RMSE 值 越 小 ,推荐 质量 就 越 好 。 


RMSE = (9-15) 





RP: Ry; — BU AY PEA s 
Ri 一 一 测试 集中 的 实际 评分 ; 
NN 一 一 测试 集 包含 的 数据 条 数 。 
9.5.3 对 比 算法 
为 了 验证 本 章 提出 算法 的 有 效 性 ,对 偏 置 项 和 社交 网 络 正则 化 进行 验证 ,下 面 
对 本 章 涉 及 的 对 比 实验 进行 说 明 。 如 式 (9-16) 所 示 是 带 偏 置信 息 的 概率 矩阵 分 


解 , 称 之 为 BiasPMF 算法 ,通过 将 BiasPMF 算法 与 PMF 算法 进行 对 比 来 验证 加 
入 偏 置 项 信息 的 有 效 性 。 


role 
Maz 


L(U.V .bu.bi)= Ds [Ri — g (p d- bu (i) + bi (j € -U2V;) J? + 


i=l j=1 


du 地 we Row N 

2 24 VU Ih be +S IV Ul Boo +S" DY I bu) I Be + 
i=1 j=1 i=1 

A M 

“DT dbi (i) 1 和 (9-16) 
j=l 


如 式 (9-17) 所 示 是 带 有 社交 网 络 正则 化 但 是 无 偏 置 项 的 目标 函数 , 称 为 
SocialReg 算法 。 将 该 算法 与 PMF 算法 作对 比 , 同 时 将 BiasPMF 5 RBPT 算法 作 
对 比 来 验证 加 入 社交 网 络 正则 的 作用 。 
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N M 
L(R.T.U,V)—1- $313 qu —g(UIV)) + 
=1 


T, IU; -U, I Woe e Vile 
(9-17) 


9.5.4 潜在 因子 维度 的 影响 


如 图 9-2 所 示 为 不 同 数据 集 上 RBPT 算法 随 着 潜在 因子 维度 的 变化 情况 ， 
图 9-2(a) 是 Caio 数据 集中 RMSE 随 潜在 因子 维度 的 变化 情况 ,图 9-2(b) 是 
FilmTrust 数据 集中 RMSE 随 着 潜在 因子 维度 的 变化 情况 。 从 图 中 可 以 看 出 ， 
RBPT 算法 关于 不 同 的 潜在 因子 维度 其 RMSE 的 变化 比较 大 ,说 明 在 算法 推荐 过 
程 中 ,数据 集 的 维度 选择 对 于 推荐 算法 的 推荐 精度 起 着 至 关 重 要 的 作用 ; 同时 ,从 
图 中 可 以 看 出 ,RMSE 随 分 解 维度 的 变化 基本 处 于 先 下 降 后 上 升 的 趋势 ,从 另 一 个 
侧面 也 反映 了 在 解决 实际 问题 过 程 中 对 推荐 算法 本 身 的 要 求 也 比较 高 。 最 终 , 选 
PE Ciao 数据 集 的 潜在 因子 维度 为 60,FilmTrust 数据 集 的 潜在 因子 维度 为 120。 

另外 ,从 图 9-2 可 以 看 出 ,并 不 是 维度 越 大 推荐 精度 就 越 高 ,这 是 因为 矩阵 分 
解 模型 假定 只 有 若干 要 素 会 影响 到 用 户 项 目的 潜在 因子 向 量 , 如 果 潜 在 因子 维度 
较 小 ,对 用 户 项 目 评分 矩阵 信息 的 挖掘 较 浅 ,精度 提升 缓慢 ; 相反 ,如 果 潜 在 因子 
维度 太 大 , 则 会 引入 噪声 ,从 而 降低 推荐 精度 ,这 在 文献 [29] 中 进行 了 讨论 ,从 侧面 
说 明了 参数 选择 的 重要 性 。 


9.5.5 偏 置 的 影响 


为 了 验证 用 户 项 目 偏 置 信息 对 推荐 质量 的 影响 ,绘制 出 如 图 9-3 所 示 , PMF 
算法 和 BiasPMF 算法 随 着 迭代 次 数 的 变化 曲线 ,图 9-3(a) 图 对 应 的 是 Caio 数据 
集 , 图 9-3(b) 图 对 应 的 是 FilmTrust 数据 集 。 

一 般 来 说 ,RMSE 越 小 ,算法 的 推荐 效果 越 好 。 就 图 9-3(a) 和 图 9-3(b) 整 体 而 
言 , 随 着 迭代 次 数 的 增加 ,加 入 偏 置 项 后 的 推荐 精度 明显 得 到 提升 ,这 恰好 符合 预 
期 结果 。 具 体 来 说 ,在 Ciao 数据 集中 ,如 图 9-3(a) 所 示 ,在 迭代 次 数 小 于 15 次 时 ， 
PMF 算法 和 BiasPMF 算法 随 着 迭代 次 数 增加 RMSE 迅速 下 降 ,而 且 此 时 PMF 算 
法 对 应 的 RMSE 小 于 BiasPMF 算法 ,表明 此 时 采用 PMF 算法 比 采用 BiasPMF 能 
获得 更 好 的 推荐 效果 ; 当 和 迭代 次 数 增加 到 20 次 后 ,BiasPMF 算法 的 推荐 效果 开始 
优 于 PMF 算法 ; 随 着 迭代 次 数 的 进一步 增加 ,BiasPMF 算法 对 应 的 RMSE 一 直 
处 于 下 降 状态 ,直至 迭代 增加 到 50 次 ,这 期 间 PMP 算法 所 对 应 的 RMSE 基本 不 
变 。 与 图 9-3(a) 表 现 不 同 的 是 ,在 FilmTrust 数据 集中 ,如 图 9-3(b) 所 示 , 整 体 来 
说 ,BiasPMF 算法 所 对 应 的 RMSE 低 于 PMF 算法 ,而 且 迭 代 曲 线 差 别 较 大 ,说 明 
BiasPMF 算法 相对 于 PMF 算法 在 推荐 精度 上 提升 显著 。 具 体 而 言 , 当 迭代 次 数 
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图 9-2 推荐 质量 随 分 解 维度 的 变化 情况 


小 于 20 次 时 , PMF 算法 和 BiasPMF 算法 所 对 应 的 RMSE (Root Mean Square 
Error, 均 方 根 误 差 ) 一 直 处 于 下 降 状 态 , 随 着 迭代 次 数 的 增加 ,RMSE 基本 保持 不 
变 , 只 有 轻微 的 过 拟 合 现象 ,在 Ciao 数据 集中 并 没有 出 现 过 拟 合 现象 。 


9.5.6 信任 因子 的 影响 


为 了 验证 正则 项 对 推荐 质量 的 影响 ,进行 如 下 实验 。 本 实验 包括 两 部 分 ,第 一 
部 分 是 PMF 算法 与 SocialReg 算法 的 对 比 , 第 二 部 分 是 BiasPMF 算法 与 RBPT 
算法 的 对 比 。 
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图 9-3 ”推荐 质量 随 迭 代 次 数 的 变化 情况 


1. PMF 与 SocialReg 算法 对 比 

如 图 9-4 所 示 是 PMF 算法 和 SocialReg 算法 在 不 同 数据 集 上 RMSE MiA 3x 
代 次 数 的 变化 情况 ,图 9-4(a) 是 Ciao 数据 集 上 的 实验 ,图 9-4(b) 是 FilmTrust 数 
据 集 上 的 实验 。 从 图 9-4 中 可 以 看 出 ,在 Ciao 数据 集中 , 当 和 迭代 次 数 小 于 20 次 时 ， 
随 着 迭代 次 数 的 增加 PMF 算法 和 SocialReg 算法 所 对 应 的 RMSE 均 处 于 下 降 状 
态 , 而 且 PMF 算法 的 推荐 效果 相对 较 好 ; 当 和 迭代 次 数 在 20 一 80 次 时 ,两 种 算法 的 
推荐 效果 相差 不 大 ; 随 着 迭代 次 数 的 进一步 增加 ,SocialReg 算法 的 推荐 效果 开始 
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优 于 PMF 算法 。 同 样 ,在 FilmTrust 数据 集中 , 随 着 迭代 次 数 的 增加 PME 算法 和 
SocialReg 算法 所 对 应 的 RMSE 均 处 于 下 降 态 势 ,并 且 SocialReg 算法 的 RMSE HH 
显 优 于 PMF 算法 。 


RMSE 
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图 9-4 社交 正则 化 对 无 偏 置 算 法 的 影响 


2. BiasPMF 算法 与 RBPT 算法 对 比 

如 图 9-5 是 BiasPMF 算法 和 RBPT 算法 随和 迭代 次 数 的 变化 情况 。 从 图 中 可 
以 看 出 ,加 入 社交 网 络 正则 项 的 RBPT 算法 相对 于 未 加 入 社交 网 络 正则 项 的 
BiasPMF 算法 ,不 仅 收敛 速度 快 ,而 且 在 推荐 精度 上 也 有 较 大 提升 。 
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图 9-5 社交 正则 化 对 有 偏 置 算法 的 影响 


9.5.7 对 比 实验 分 析 


如 图 9-6 所 示 是 不 同 算法 的 推荐 质量 随和 迭代 次 数 的 变化 情况 ,包括 PMF 算法 、 
BiasPMF 算法 ,SocialReg 算法 和 RBPT 算法 。 对 于 不 同 的 数据 集 ,从 图 9-6(a) 和 (b) 
可 以 看 出 ,本 章 提 出 的 RBPT 算法 均 优 于 上 述 所 提 到 的 算法 。 具 体 来 说 ,对 于 Ciao 
数据 集 ,在 0 一 100 次 的 迭代 过 程 中 ,RBPT 算法 在 第 10 次 迭代 时 基本 达到 稳定 状 
态 , 无 论 是 迭代 次 数 、 还 是 RMSE 的 值 都 是 明显 优 于 其 他 三 种 算法 。 对 于 
FilmTrust 数据 集 , 开 始 和 迭代 时 ,所 计算 的 RMSE fü Co. 88) 处 于 比较 高 的 状态 (与 
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BiasPMF 算法 .SocialReg 算法 相 比 ) .但 随 着 迭代 次 数 的 增加 ,其 RMSE 值 几乎 呈 
指数 级 的 递减 ,说 明 由 于 数据 集中 用 户 之 间 存 在 信任 关系 ,RBPT 算法 起 到 了 明显 
的 优化 作用 ,使 RMSE 值 在 迭代 次 数 为 20 时 基本 达到 稳定 的 最 优 值 状态 。 对 于 
Ciao 数据 集 和 FilmTrust 数据 集 , 详 细 的 迭代 次 数 和 RMSE 值 之 间 的 变化 关系 如 
K 9-2 所 列 , 当 达到 稳定 状态 时 ,从 表 9-2 可 计算 得 到 RBPT 算法 在 Ciao 数据 集 上 
相对 于 传统 的 PMF 算法 精度 提升 为 13. 61% ,在 FilmTrust 数据 集 上 精度 提升 
15. 52% ,提升 效果 显著 ,说 明 本 章 提 出 的 RBPT 算法 在 RMSE 方面 具有 一 定 的 优 
越 性 ,从 而 缓解 了 数据 稀 玻 性 带 来 的 推荐 精度 不 高 的 问题 。 


2 T T T T T T 
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图 9-6 不 同 算法 的 推荐 质量 随 迭 代 次 数 的 变化 情况 
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表 9-2 Ciao 和 FilmTrust 数据 集中 不 同和 迭代 次 数 对 应 的 RMSE 值 












































数据 集 和 迭代 次 数 PMF 算法 “| SocialReg 算法 | BiasPMF 算法 | RBPT 算法 

1 1. 5570 1. 9735 1. 6917 1.0284 

. 10 1. 1902 1. 2768 1. 2097 0.9793 

Suo 20 1. 1328 1.1211 1. 0833 0. 9662 

30 1. 1131 1.1092 1. 0247 0. 9602 

1 0. 9693 0. 8572 0. 8671 0. 8821 

Fiunt 10 0. 9570 0. 8070 0. 8035 0. 8023 
20 0. 9506 0. 8047 0. 7951 0. 7909 

30 0.9472 0. 8038 0. 7950 0. 7891 

本 章 小 结 


本 章 提 出 一 种 基于 社交 网 络 正则 化 的 改进 概率 矩阵 分 解 算法 ,该 模型 基于 现 
实 世 界 中 用 户 的 消费 行为 不 仅 与 自己 的 喜好 有 关 , 还 与 朋友 的 推荐 有 关 , 更 加 真实 
地 反映 了 客观 情况 。 实 验 结果 表明 本 章 提出 的 RBPT 算法 在 两 个 数据 集 上 的 
RMSE 提高 1325 — 15 76 ,同时 算法 的 理论 复杂 性 分 析 表 明 本 章 提出 的 算法 随 着 数 
据 规模 线性 变化 ,适用 于 大 数据 集 。 但 是 如 何 利 用 信任 的 传播 与 聚合 来 提升 推荐 
精度 将 是 接 下 来 的 需要 深入 研究 的 工作 。 
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本 章 针 对 传统 应 用 于 推荐 系统 中 的 非 负 和 矩阵 分 解 算法 较 少 考虑 独立 于 用 户 和 
项 目 之 外 的 因素 ,提出 一 种 结合 用 户 及 项 目 偏 置 的 非 负 和 矩阵 分 解 算法 。 为 了 避免 
随机 初始 化 的 用 户 一 隐 因 子 和 矩阵 和 项 目 一 隐 因 子 矩 阵 在 更 新 过 程 中 产生 局 部 最 优 
解 ,首先 利用 SVD 技术 初始 化 用 户 一 隐 因 子 和 矩阵 和 项 目 一 隐 因 子 和 矩阵 。 其 次 在 分 
解 过 程 中 把 用 户 项 目的 偏 置信 息 与 传统 非 负 和 矩阵 分 解 算法 相 融 合 ,明确 偏 置 信息 与 
预测 数据 之 间 的 关系 。 最 后 通过 实验 表明 ,在 不 同 的 数据 集 上 ,该 算法 与 传统 矩阵 分 
解 算法 相 比 在 稀 玻 用 户 ( 评 价 项 目 比 较 少 的 用 户 ) 评 分 预测 准确 性 上 有 显著 提高 。 


10.1 引言 


推荐 系统 的 一 个 基本 功能 是 利用 用 户 一 项 目 评分 矩阵 中 已 知 评分 预测 未 知 评 
分 ,将 预测 评分 高 的 项 目 推荐 给 用 户 。 但 是 在 研究 过 程 中 面临 着 诸多 难题 ,其 中 最 
为 典型 的 就 是 由 数据 的 高 维 稀 玻 性 带 来 的 对 稀 玻 用 户 ( 评 价 项 目 较 少 的 用 户 ) 评 分 
预测 准确 度 不 高 的 问题 。 

在 现代 化 推荐 系统 中 ,用 户 、 项 目的 数量 通常 都 是 呈 指 数 级 。 随 着 项 目 数 量 的 
增加 ,用 户 评价 的 项 目 在 总 项 目 中 所 占 比 例 越 来 越 小 ,如 果 仍 然 采 用 适用 于 低 维 数 
据 的 相似 度 度量 方法 度量 用 户 、 项 目 之 间 的 相似 度 ,计算 得 到 用 户 之 间 的 相似 区 分 
度 较 低 , 随 着 数据 量 的 增加 ,相似 度 的 计算 量 将 呈 指 数 增长 。 针 对 稀疏 矩阵 中 评分 
预测 问题 ,近年 来 研究 者 们 采用 了 各 种 各 样 的 方式 ,Koren Y 提出 把 矩阵 分 解 技术 
应 用 到 推荐 系统 中 ,把 用 户 一 项 目 评分 矩阵 R,x, 分 解 为 两 个 k(k<m,n) 维 的 用 
户 一 隐 因 子 和 矩阵 Puxx 和 项 目 一 隐 因 子 和 矩阵 quoc ,利用 分 解 后 的 隐 因 子 矩 阵 预 测评 
分 ,该 算法 与 传统 的 协同 过 滤 推 荐 算法 相 比 在 预测 准确 度 上 有 比较 大 的 提升 ,但 是 
在 分 解 后 的 矩阵 中 出 现 的 负 值 与 用 户 一 隐 因 子 、 项 目 一 隐 因 子 原理 不 符 。Lin C 提 
出 利用 每 一 个 不 为 零 的 评分 更 新 Pxi、gixs 的 NMF (Non-negative Matrix 
Factorization) 算 法 。NMEF 算法 在 充分 拟 合 已 知 评分 的 基础 上 对 用 户 评分 预测 具 
有 以 下 特点 : 
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CD 相似 用 户 mt 分解 后 对 应 的 行 向 量 Pu. 与 qu. 相似 度 比较 高 ; 

(2) 相似 用 户 mt 分解 后 对 应 的 列 向 量 g. ,与 q. ,相似 度 比较 高 。 

由 以 上 分 析 可 知 ,NMF 算法 有 助 于 提高 相似 用 户 的 预测 准确 性 ,但 在 对 稀 下 
用 户 评分 预测 方面 表现 一 般 。 为 了 解决 这 一 问题 ,本 章 在 NMF 算法 的 基础 上 , 提 
出 一 种 由 SVD 初始 化 ,融合 用 户 和 项 目 偏 执 信息 的 非 负 和 矩阵 分 解 算法 , 称 为 
RBNMF(Recommend with Bias Information NMF) 算 法 ,与 传统 矩阵 分 解 算法 相 
HE RBNMF 算法 的 稀 朴 用 户 预 测 准确 有 较 大 提高 。 


10.2 相关 工作 


10.2.1 ibe a> fre 


和 矩阵 分 解 模型 假设 用 户 对 项 目的 评分 受到 若干 隐 因 子 的 影响 ,将 用 户 和 项 目 
映射 到 一 个 共同 的 隐 因 子 空间 中 ,这 种 情况 在 实际 工作 中 具体 表现 为 : 如 果 用 户 
FERC 语言 程序 设计 》 这 本 书 , 背 后 的 原因 可 能 是 用 户 喜 欢 编程 .用 户 喜 欢 谭 浩 强 
本 人 或 用 户 对 C 语言 比较 感 兴趣 等 ,这 背后 的 原因 就 称 为 隐 因 子 。 但 是 在 矩阵 分 
解 过程 中 有 些 隐 因子 不 能 给 出 明确 的 解释 ,所 以 矩阵 分 解 模型 又 称 为 隐语 义 模型 。 

抢 阵 算法 是 将 用 户 一 项 目 评分 矩阵 Rux, 分 解 成 两 个 低 维 度 的 矩阵 乘积 ,如 
式 (10-1) 所 示 。 

Rxn ^9 P mxr X qx (10-1) 
式 中 : 光一 一 用 户 的 个 数 ; 
7 一 一 项 目的 个 数 ， 
kmin(m,n) 一 一 隐 因 子 的 个 数 。 

假设 评分 误差 服从 高 斯 分 布 ,采用 梯度 下 降 算法 更 新 Px 、qixn: 为 了 防止 过 

拟 合 现象 的 发 生 , 可 以 在 计算 误差 公式 时 加 入 正则 项 ,如 式 (10-2) 所 示 。 
min >} (Rui — Pue © 0a) HACI Pa WH asl (10-2) 


b” sa” (Cui)ER 
式 中 : K 已 知 评分 ; 
Pa, 一 一 Rx 分 解 后 Px 中 的 行 向 量 ; 
04. 一 一 Rux, 分 解 后 guexs 中 的 列 向 量 ; 
) 一 一 正则 化 因子 。 
基于 矩阵 分 解 的 算法 由 于 隐 因 子 kmin(m,n) ,实际 计算 的 空间 复杂 度 比 较 
低 ; 同时 ,该 算法 使 用 的 是 全 局 目标 函数 ,所 以 预测 准确 度 比较 高 。 


10.2.2 奇异 值 矩 阵 


在 推荐 系统 中 ,SVD 作为 一 种 矩阵 分 解 技术 ,通过 分 解 产 生 低 秩 和 矩阵 近似 融 
近 原 始 和 矩阵 。 在 一 个 给 定 的 矩阵 A 中 奇异 值 分 解 如 式 (10-3) 所 示 。 
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A=UXSxXV"™ (10-3) 
AH: UCRaxm VE Roxas SE Ras 
和 矩阵 U MEE V EXE; 





EERI AAT. ATA 的 特征 向 量 ; 
AB Ie S= diag (0 «9:70, ) 0312202 790,270 HP r HEER 的 秩 ; 
R 的 奇异 值 。 

SVD 算法 可 以 分 解 为 三 个 矩阵 相 乘 对 原始 矩阵 A 进行 最 优 逼 近 ,通过 将 矩阵 
S 保留 前 K 个 最 大 的 奇异 值 进行 化 简 得 到 更 新 后 的 对 角 和 矩阵 ,其 中 A 和 ~。 然后 通 
过 删除 U 和 V 对 应 的 列 (U 和 V 中 的 列 ) ,化 简 后 的 矩阵 U 和 V 表示 为 Ui 和 Vi。 
化 简 后 A' 可 用 式 (10-4) 表 示 。 

A' —U, XS, XVi (10-4) 


10.2.3 Baseline 预测 


测试 算法 性 能 好 坏 ,往往 需要 建立 一 个 对 比 基 线 ,在 对 比 的 基础 上 观察 后 续 试 
验 效果 的 变化 。 观 测 到 的 评分 数据 有 一 些 和 用 户 无 关 的 因素 产生 的 效果 , 即 一 部 
分 因素 是 和 用 户 对 物品 的 喜好 无 关 而 只 取决 于 用 户 或 物品 本 身 的 特性 ,例如 ,乐观 
的 用 户 对 于 一 些 项 目的 评分 普遍 较 高 ,而 翡 观 的 用 户 对 项 目的 评分 普遍 较 低 , 也 就 
是 说 即使 这 两 类 用 户 对 同一 项 目的 评分 相同 ,但 是 对 物品 的 喜好 程度 确 是 不 一 样 
的 。 对 于 项 目 来 说 道理 是 一 样 的 ,受用 户 欢 迎 的 项 目 评分 普遍 较 高 ,不 受用 户 欢 迎 
的 项 目 评分 较 低 ,加 入 偏执 信息 的 评分 预测 公式 如 式 (10-5) 所 示 。 
R* (i,j) = p+ buG) +bi G) (10-5) 
AP: R* (i,j) 一 一 用 户 i 对 项 目 j 的 预测 评分 ; 
4 一 一 数据 集 的 总 体 偏 置信 息 ; 
buli) 用 户 i 的 偏 置信 息 ; 
bi(j) 一 一 项 目 j 的 偏 置信 息 。 
假如 项 目 7 的 总 体 偏 置 为 a ,项目 w 的 口碑 普遍 高 于 其 他 项 目的 值 为 5 ,如果 
H U, 是 悲观 严 间 的 ,其 bu(i) 值 为 ,那么 Ui 对 项 目 7 了 的 预测 值 为 c 十 2 一 c。 
在 计算 偏 置信 息 时 ,求解 bu(i) 和 6i(j) 的 值 如 式 (10-6) 所 示 。 





O, 





>) Ri ub) 
-) _ AEE 
buG) = nT 
(10-6) 
D Rauw 
.rr uEUi 
bip = IU] 
RP: w 一 一 所 有 已 被 评价 项 目的 总 体 偏 置 ; 





HP; 
项 目 ; 


u 





i 
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IT 一 一 用 户 “评价 过 的 项 目 集合 ， 
| 一 一 集合 的 个 数 ; 

UU 一 一 评价 过 项 目 i 的 用 户 集合 ; 
IU;| 一 一 集合 的 个 数 ; 

参数 A、 需要 实验 时 确定 。 


10.2.4 NMF 算法 


现代 化 推荐 系统 需要 处 理 的 数据 量 非常 庞大 ,在 现 有 和 矩阵 分 解 的 基础 上 Lin C 
提出 了 一 种 时 间 复 杂 度 比较 低 的 NMF 算法 ,该 算法 利用 每 一 个 已 知 评分 项 更 新 
分 解 后 的 用 户 一 隐 因 子 和 矩阵 Px 和 项 目 一 隐 因 子 和 矩阵 qus». TE Lin C 算法 的 基础 
上 ,为 了 防止 分 解 后 的 矩阵 出 现 过 拟 合 ,加 入 正则 项 的 乘 性 迭代 如 式 (10-7) 所 示 。 














Dei Fai 
Duk = Pur’ ste 
|I [Abu + Sai Fad 
2h (10-7) 
2 Pes ° Tusi 
u€U, 
qii qui 


|U: [Asti T M bus "dis 
i€l, 


RP: 1 一 一 评分 不 为 零 的 项 目 集合 ; 
Ui 一 一 评分 不 为 零 的 用 户 集合 ， 
rwi 一 一 用 户 w 对 项 目 i 的 实际 评分 ; 
rii TRA FH PS u 对 i 的 评分 ,其 可 以 由 初始 化 的 用 户 一 隐 因 子 和 矩阵 
P,xx 和 项 目 一 隐 因 子 矩 阵 qix, 计 算得 到 。 


10.3 RBNMF 算法 


10.3.1 理论 分 析 


为 了 更 好 地 利用 NMF 算法 提升 对 稀 朴 用 户 评分 的 预测 准确 度 , 本 章 在 误差 
函数 中 把 用 户 、 项 目的 偏 置信 息 与 用 户 一 隐 因 子 和 矩阵 pwxx 和 项 目 一 隐 因 子 和 矩阵 
dexn 相 结合 ,为 了 防止 pwxesgexs 在 训练 开始 阶段 陷 人 局 部 最 优 解 ,利用 SVD 算法 
初始 化 posi qos 由 上 文 可 知 融入 了 用 户 、 项 目 偏 置 的 损失 函数 可 用 式 (10-8) 


所 示 。 
loss = 23 (Gr,; — i —bu —bi — py. © qed? + 
2, DER, 
Ap 24 Aa, 2 P 
zt ose asl (10-8) 
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RP: /一 一 项 目的 总 体 偏 置 ; 
用 户 的 偏 置 ; 


bi 项 目 i 的 偏 置 ; 
pmxr、qrxs 一 一 分 解 后 的 与 用 户 和 项 目 相 关 的 和 矩阵 ; 





bu 











Ap 4 一 一 正则 化 因子 ; 
T 不 为 零 评 分 项 的 集合 。 
由 式 (10-8) 可 以 得 pasa 、qrx, 的 更 新 方程 ,如 式 (10-9) 所 示 。 
Aloss 
Duk = Duk — uk * e = 
s (10-9) 
9loss 


Qui — Qi Mi ST 
? Igri 


式 中 : ,4 一 一 用 户 的 每 次 更 新 步 长 ; 


水 ,: 一 一 项 目的 每 次 更 新 步 长 。 
为 了 使 用 使 分 解 后 的 矩阵 符合 隐 因 子 原理 ,本 章 采 用 乘 性 迭代 保证 每 次 迭代 


的 值 都 为 正 。 
对 式 (10-9) 进 行 如 下 改进 : 


(1) 把 式 (10-9) 简 化 为 式 (10-10); 
(D 为 了 迭代 过 程 中 出 现 乘 性 迭代 ,对 于 参数 选择 的 主要 目的 是 消 掉 相 加 的 


第 一 项 ,经 过 化 简 得 到 ya ope, ,如 式 (10-11) 所 示 。 
Pack = Pak mi 230 * 2R,í 一 
u€Ui 
Tak * Pis Pure * Qui tpt bu + bi) + ApPur 
(10-10) 


u€Ui 


Ori = Qui F e * Pax “2R = 
iEL, 


Nuk * pas * Qui tu + bu + bi) + .Ain 
iEL, 


Du 

















To eol aee tis- id Ada 
en (10-1D 
Qi 
T.i - 
DP aa Pai * qui tet bu d bi) Aq 
i€l, 


AP: U; 一 一 评价 过 项 目的 用 户 集合 ; 


I, 一 一 被 用 户 评价 过 的 项 目 集合 。 
将 式 (10-11) 代 入 式 (10-10) 得 到 pi ,gr 的 乘 性 迭代 公式 ,如 式 (10-12)、 


式 (10-13) 所 示 。 
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Zi * 2R,,: 


Pur = Pus neu (10-12) 
20 dks (bui t Qui p bu + bt) d Abu 


u€Ui 








Moa t 2Rei 
i€l, 
alt erdt mods TR ERE fala 
i€l, 
评分 形成 由 四 部 分 构成 , 即 数据 集 总 体 偏 置 .用 户 偏 置 、 项 目 偏 置 和 预测 值 , 如 
式 (10-14) 所 示 。 








qr,i (10-13) 


De = in * qui d p bud bi) (10-14) 


10.3.2 RBNMF 算法 流程 


为 了 防止 posa «qe n CEU AIF 8 Dr Ez BG A J RD He DC f «de PA A 9] A (E39. A Bd 
子 矩 阵 时 采用 SVD 算法 对 实验 数据 集 进 行 初步 训练 ,得 到 左 奇异 和 矩阵 U d E 
ARE V 及 奇异 矩阵 S ,接着 选择 S 中 前 & 个 的 奇异 值得 到 VSCE) ,那么 初始 前 因子 
矩阵 为 P—U * VS) ,Q= VS(k) *VT。 
算法 10-1: RBNMF 算法 


输入 : 用 户 项 目 评分 矩阵 有 Rux,' 初 始 用 户 隐 因 子 和 矩阵 xx, 初始 项 目 隐 因 子 和 矩阵 acy» Dl 
练 次 数 Round= 1000 次 ,初始 化 用 户 偏 置 向 量 bus, 和 项 目 偏 置 向 量 bi, ,初始 正则 化 因子 4 ， 
A, BM AGH Tel Fb SF ek UE ME UP ,UD ,IP.1ID。 

输出 : 用 户 隐 因 子 矩 阵 paca :项目 隐 因子 矩阵 quss ,pspun sbin o 


步骤 1: 根据 SVD 算法 训练 得 到 U mxa Vin 和 最 优 因子 维度 天 ,然后 利用 书 =U* 
SSR) QS VS) *VT 得 到 初始 化 用 户 隐 因子 矩阵 P,xx 及 项 目 隐 因子 矩阵 Qix，。 
步骤 2: 利用 初始 化 的 Pxs 、Qix, 计 算 p, 由 此 利用 式 (10-6) 计 算出 bun sbin o 
步骤 3: 利用 每 一 个 不 为 零 的 评分 项 训练 出 中 间 和 矩阵 值 。 
for (R;,; #0) do 
将 过 渡 矩 阵 UP,UD, IP.ID Bt AE 0 矩阵 。 
for (f=1; fk; f++) 
UP,,,— UP mp + >) dei * 2Rus 
u€Ui 


UD, = UD mig + >) qe Part * qui p bu bi) +p pua s 
u€Ui 








IPya= IPyat >) bua * 2Rus 
iEn 


IDin = IDin t >) Pu pui * Gea tutbutbi) Adis 


i€l, 
end 
end 
for( 每 一 个 用 户 ) 
for(f=1; f< k; f++) 
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续 表 


PL; Pay UP ni UDL,; 
end 
end 
for( 每 一 个 项 目 ) 
for(f=1; f< k; f++) 
Qj, = QApn/IP pin / ID guns 
end 
end 
步骤 4: 利用 测试 集 测试 和 一 次 训练 生成 的 pus qi x Dus x bin VA BRK (10-16) TE 6E 
RMSE 值 。 
让 前 一 次 得 到 的 RMSE 值 大 于 这 次 的 值 ， 
进入 下 一 次 训练 ; 


else 
记录 当前 参数 值 ; 
end 
步骤 4: 返回 最 优 参 数值 及 pus ern Dus xbin o 
算法 结束 


10.4 实验 分 析 


本 节 首 先 介绍 实验 数据 集 的 来 源 , 然 后 介绍 实验 参数 的 确定 ,最 后 进行 对 比试 
验 并 分 析 实 验 结果 。 

本 章 进行 的 实验 主要 解决 以 下 问题 

CD 偏 置 参数 的 确定 ; 

(2) 潜在 因子 维度 对 推荐 质量 的 影响 ; 

(3) 本 章 算 法 与 NMF 与 RBNMF {EHER A Xi Fa LM P YEA BUM Ho 


10.4.1 数据 集 


本 章 实验 分 别 在 Epinion, Ciao, MovieLens 三 个 数据 集 进行 ,这 三 个 数据 集 都 
包含 了 用 户 对 项 目的 评分 且 分 值 分 为 1 一 5 的 离散 值 ,数据 集 简介 如 表 10-1 所 示 。 


表 10-1 数据 集 简介 





数据 集 用 户 数 目 项 目 数目 评分 数 Fa RE 
MovieLens 6040 3706 1000209 4.47% 
Ciao 7375 99746 278483 0. 0379% 


Epinion 40163 139738 664824 0.0118% 
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10.4.2 评价 标准 

为 了 检验 本 章 提出 算法 的 推荐 质量 ,本 实验 采用 均 方 根 误差 (Root Mean 
Square Error, RMSE) 作 为 度量 标准 ,通过 计算 预测 值 与 实际 值 之 间 的 RMSE 来 表 
示 预 测 的 准确 性 ,RMSE 值 越 小 ,推荐 质量 就 越 好 ,如 式 (10-15) 所 示 。 
之 (zi — re)? 


n 


RMSE = 


式 中 : zi 一 一 代表 预测 值 ; 
Zz, 一 一 与 预测 值 对 应 的 真实 值 。 


10.4.3 实验 结果 及 分 析 


首先 将 数据 集 的 90% 作 为 训练 集 ,其 余 的 10% 作 为 测试 集 。 选 择 BaseLine 预测 
的 目的 在 于 该 算法 的 训练 时 间 短 ,预测 精度 高 ,可 以 通过 实验 训练 得 到 最 优 参数 。 

如 图 10-1 所 示 是 MovieLens 1M 数据 集 Baseline 预测 ,经 实验 发 现 当 二 3， 
A, —6. RMSE 达到 最 优 ,最 小 值 为 0. 961. 


(10-15) 





RMSE 





图 10-1 MovieLens 1M 数据 集 Baseline 预测 


如 图 10-2 所 示 是 Ciao 数据 集 上 所 做 的 Baseline 预测 ,经 实验 发 现 当 二 58， 
À; —41, RMSE 达到 最 优 ,最 小 值 为 0. 976 。 

如 图 10-3 所 示 是 Epinions 数据 集 上 的 Baseline 预测 ,经 实验 发 现 当 二 55， 
A, =45, RMSE 达到 最 优 ,最 小 值 为 0. 998。 

由 以 上 实验 确定 了 参数 值 之 后 .在 MovieLens IM 数据 集 上 通过 多 次 实验 , 参 
HEA, 3.2; — 6,2, = 1. 35.4, —0. 96 H} RMSE 表现 最 优 , 此 时 对 比 NMF 算法 与 本 
章 提出 的 RBNMEF 算法 在 不 同 的 维度 上 RMSE 值 , 如 图 10-4 所 示 为 MovieLens 
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RMSE 





40 40 


图 10-2 Ciao 数据 集 Baseline 预测 


RMSE 





4 
à 0 40 A 


图 10-3 Epinion 数据 集 Baseline 预测 


1M 数据 集 分 解 不 同 维度 RMSE 对 比 。 在 Ciao 数据 集 上 通过 多 次 实验 ,参数 A= 
58.42—41.A, —1. 62.A,=1.06 时 RMSE 表现 最 优 ,此 时 对 比 上 NMF 算法 与 本 章 
提出 的 RBNMEF 算法 在 不 同 的 维度 上 RMSE 值 ,如 图 10-5 所 示 为 Ciao 数据 集 分 
解 不 同 维度 RMSE 对 比 。 在 Epinion 数据 集 上 通过 多 次 实验 ,参数 A =55.Aa.= 
45 Ap =1.73,A,=0. 786 时 RMSE 表现 最 优 , 此 时 对 比 NMF 算法 与 本 章 提出 的 
RBNMF 算法 在 不 同 维度 上 的 RMSE 值 , 如 图 10-6 所 示 为 Epinion 数据 集 分 解 不 
同 维度 RMSE 对 比 。 可 以 明显 看 出 ,NMEF 算法 的 RMSE 值 随 着 分 解 维度 的 增 
加 ,变化 幅度 与 本 章 提出 的 算法 相 比 变化 范围 较 大 。 这 说 明了 本 章 提 出 的 
RBNMF 算法 在 训练 过 程 中 对 分 解 维度 的 要 求 弱 于 NMF 算法 ,也 恰恰 证 明了 本 章 
算法 通过 添加 用 户 、 项 目 偏 置信 息 , 有 力 地 改善 了 对 于 一 些 难以 通过 实验 确定 最 佳 
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分 解 维度 的 用 户 评分 预测 。 当 分 解 维度 到 达 一 定 值 时 在 不 同 数据 集 上 两 种 算法 的 
最 优 RMSE 基本 相等 ,如 果 分 解 维度 继续 增加 ,NMEF 算法 及 RBNMEF 算法 都 会 显 
示 出 预测 精确 度 下 降 的 趋势 ,但 是 本 章 提出 的 算法 改变 幅度 较 小 ,原因 是 一 旦 隐 因 
子 数量 超过 一 定 范围 ,相对 多 增加 的 隐 因 子 会 在 一 定 程度 上 削弱 最 佳 隐 因 子 ( 也 即 
RMSE 对 应 最 低 的 维度 数 ) 对 预测 值 的 影响 ,实际 表现 就 是 预测 精度 的 降低 。 





























20 30 40 30 60 70 80 90 100 
分 解 维度 
图 10-4 MovieLens 1M 数据 集 分 解 不 同 维度 RMSE 对 比 

















RMSE 














20 30 40 50 60 70 80 90 100 
分 解 维度 数 


图 10-5 Ciao 数据 集 分 解 不 同 维度 RMSE 对 比 
对 于 大 型 数据 集 , 稀 玲 用 户 的 数量 比较 大 。 图 10-7 列 出 了 MovieLens 1M 数 


据 集 、Ciao 数据 集 、Epinion 数据 集 的 用 户 评价 项 数量 分 布 ,可 以 看 出 稀疏 用 户 ( 四 
类 中 的 第 一 类 ) 占 全 部 用 户 的 比例 较 大 。 
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RMSE 














分 解 维度 数 
图 10-6 Epinion 数据 集 分 解 不 同 维度 RMSE 对 比 






































1~40 40~80 80~160 >160 
(a) MovieLens 1M 数 据 集 
60 T T T 一 
Ez 
& 
on A0 rm 7 
5 
id 207 E 
3g 
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Ciao 
80 
o r— NIIll — ——————————————— —— — —— | 
40} " 
20[-— EN | 一 -一 4 
0 
1-10 10-40 40-80 280 
(b) Epinion 数 据 集 
评价 项 目 数 


图 10-7 用 户 评价 项 目 数量 分 布 图 


图 10-8 选择 三 种 数据 集 的 稀 政 用 户 ( 图 10-7 中 每 种 数据 集 的 第 一 类 用 户 ) 作 
为 测试 集 ,从 上 述 实验 中 选取 三 种 不 同 数 据 集 达到 最 优 的 X41、Xs、Xp、X。。 可 以 看 
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出 ,在 实验 开始 阶段 ,三 种 数据 集 在 分 解 维 度数 相同 时 ,本 章 提出 的 RBNMF 算法 
的 预测 准确 度 优 于 NMF 算法 。 针 对 稀 玖 性 较 大 的 Ciao 和 Epinion 数据 集 的 预测 
准确 性 ,分 解 维度 数 为 20 BY. A ECT Ait VE BEAK AY MovieLens 数据 集 展现 出 比较 
大 的 优势 ,更 加 明确 地 说 明了 用 户 一 项 目 偏 置 对 稀 疏 用 户 的 评分 预测 准确 性 有 较 
大 提升 。 随 着 分 解 维度 的 增加 三 种 算法 的 预测 准确 性 有 明显 提高 ,原因 是 隐 因 子 
模型 随 着 挖掘 的 潜在 因素 的 增加 预测 值 趋 于 更 加 合理 化 。 随 着 分 解 维度 的 进一步 
增加 , 相 比 各 个 数据 集中 全 部 用 户 ,稀疏 用 户 的 预测 准确 度 下 降 并 不 明显 ,原因 是 
稀 玖 用 户 评 价 项 目 较 少 ,约束 隐 因 子 条 件 较 少 ,不 能 确定 最 优 分 解 维 度数 (如 
MovieLens 数据 集中 最 优 维度 数 可 以 为 50 一 100 的 任何 一 个 )。 




















RMSE 

















1 1 
20 30 40 50 60 70 80 90 100 







































分 解 维度 数 
(b) Ciao 数据 集 
1.2 T T T T T T T 
—H—NMF 
1.1 al 
a —O--RBNMF 
E 
z 
2 1 — 
0.9 
| 
20 30 40 50 60 70 80 90 100 
分 解 维度 数 
(c) Epinion 数据 集 


图 10-8 Ki AS = SEE RMSE 对 比 
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本 章 小 结 


本 章 研 究 了 非 负 和 矩阵 分 解 算法 在 推荐 系统 中 的 应 用 ,RBNMEF 算法 在 NMF 的 
基础 上 加 入 了 独立 于 观测 的 评分 数据 和 用 户 无 关 的 偏 置信 息 。 实 验 表 明 , 对 比 传 
统 的 矩阵 分 解 算法 ,本 章 提出 的 算法 针对 稀 朴 用 户 评分 预测 精确 性 有 较 大 的 提高 。 
但 是 ,在 算法 的 改进 过 程 中 充分 利用 已 知 评分 的 机 制 还 不 够 完善 ,进一步 研究 的 重 
点 应 该 是 不 同 用 户 之 间 信 任 的 建立 ,传播 ,把 信任 机 制 引 入 到 矩阵 分 解 算法 中 。 
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本 章 针 对 协同 过 滤 推 荐 算法 中 采用 传统 矩阵 分 解 出 现 负 值 的 现象 ,提出 将 
NMF 和 项 目 “ 热 度 " 相 结合 的 两 阶段 -NN 近邻 选择 算法 。 首 先 通 过 NMF 得 到 项 
目的 非 负 隐 式 特征 空间 ,并 使 用 改进 的 余弦 相似 度 度量 项 目 间 相 似 度 ,根据 ANN 
算法 得 到 第 一 阶段 人 近邻 集合 。 E su e 
进行 第 二 阶段 & 近邻 选择 ,并 完成 预测 推荐 。 最 后 的 实验 结果 表明 在 数据 稀疏 情 
况 下 ,本 章 提 出 的 CFNMF-HR (Algorithm of Collaborative Filtering Based on 
NMF and Heat Range) 算 法 与 经 典 算法 相 比 , 鲁 棒 性 更 好 ,推荐 精度 也 得 到 一 定 程 
度 的 提高 。 


了 


11.1 5l 


在 第 4 章 提出 的 改进 算法 中 采用 SVD 矩阵 分 解 时 出 现 负 值 , 此 种 现象 出 现 的 
原因 是 在 SVD 模型 中 未 对 用 户 和 项 目 特征 空间 进行 条 件 约束 。 在 现实 世界 中 ,各 
个 维度 中 出 现 负 值 的 向 量 是 不 具有 现实 意义 的 。 例 如 ,在 电影 推荐 系统 中 ,用 户 隐 
式 向 量 的 某 一 维度 值 代表 当前 用 户 对 当前 维度 (电影 ) 的 喜好 程度 。 相 应 的 ,对 于 
一 部 电影 来 说 ,项 目 隐 式 向 量 的 某 一 维度 值 代表 当前 电影 与 当前 电影 类 别 的 相关 
程度 , 若 为 负 值 , 则 无 法 解释 。NMEF 可 以 很 好 地 弥补 上 述 问 题 ,并 已 广泛 应 用 于 协 
同 过 滤 推 荐 算法 之 中 。 将 NMF(Non negative Matrix Factorization) 运 用 在 协同 过 
滤 推 荐 算法 中 ,挖掘 出 更 合理 、 更 符合 实际 的 隐 式 特征 。 将 非 负 和 矩阵 应 用 于 对 三 维 
数据 的 分 析 , 将 三 维 数据 投影 为 二 维 , 分 别 采用 非 负 和 矩阵 分 解 完成 协同 过 滤 过 程 ， 
有 效 地 提高 了 预测 精度 。 

针对 上 述 问 题 ,本章 提出 将 非 负 和 矩阵 分 解 和 项 目 * 热 度 " 相 结合 的 两 阶段 
近邻 选择 算法 。 传 统 的 基于 项 目的 协同 过 滤 推 荐 算法 只 将 项 目 间 的 相似 度 作为 
唯一 因素 ,而 实际 现实 生活 中 ,热门 ”商品 对 用 户 购 买 行为 的 影响 也 是 一 个 重要 
AR. 
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11.2 JERR D HB 


给 定 R mxn VEA RE » FEME (CIL Aah FETA AE SAE f BE W mxa A ees ,使 
f$ R^-W * H, EP R,, BY PU [n] dc He BE AB [Ve W vp Spot 0 m5] dk H0] OT A A, 2 RE E 
H 对 应 的 列 向 量 元 素 为 权重 系数 且 满 足 (m 十 n) Xk 二 m Xn, WS AW k (AW Xe Hc 
实现 系数 数据 降 维 。 在 协同 过 滤 推荐 算法 中 ,W 为 用 户 隐 式 特征 向 量 空间 矩阵 ， 
H 为 项 目 特征 向 量 空 间 和 矩阵 ,其 非 负 性 更 具 现 实意 义 。 

NMF 利用 乘 性 迭代 的 方法 求解 W 和 互 , 是 一 个 无 监督 的 自学 习 过 程 。 假 设 
目标 函数 为 EE Rus o 1$ E br PA BC AY FCU 11-1) Bro 

E=R—WH (11-1) 

H TIFE WEE W A H EAE || E || 最 小 ,假设 噪声 服从 高 斯 分 布 , 那 么 得 到 

最 大 似 然 函 数 如 式 (11-2) 所 示 。 


2 
Lw,H)= II — ex( 23 
Oi 











ij V2nos 
Tq 
= : exp| LR; RUD 1-2) 
ij W2x0j 20; 


取 对 数 后 ,得 到 对 数 似 然 函 数 为 








1 1 1 
In L(W,H) In 。 [R —(WH), — a1-3 
Den ae "rA 


假设 矩阵 各 个 数据 点 与 真实 值 间 偏 差 的 方差 相同 , 则 使 得 式 (11-3) 的 取 值 最 
大 , 即 : @ 式 (11-1) 应 达到 最 小 值 才能 实现 无 限 和 逼 近 真 实 值 的 目的 ,可 得 到 损失 函 
数 ; 加 范 数 损失 函数 ,其 是 基于 欧 几 里 得 距离 的 度量 ,如 式 (11-4) 所 示 。 








JW,H) = > DIR, - WED, F (1-4) 
对 式 (11-5) 求 导 ， 
(WH); = Waly E = Hy (11-5) 
那么 得 到 下 式 : 
V XU, — WH y] 
CPP ik j 
= DRjHy — >) (WH);Hy 
$ $ 
= (RH) a — (WHH ®)a (11-6) 
同 理 可 得 : 
OD (WTR), — (WTWH )y (11-7) 
5 


优化 方法 采用 梯度 下 降 法 进行 迭代 训练 。 如 式 (11-8) X C11-90 Bro 
Wa = Wa —a * [ORHO4 — QWHH?)4] (11-8) 
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Hy = Hy —a * [(W'R), — (W'WH), ] (11-9) 
Wi 
RP: = CTW ET, 
a= Hy 
* (WHH");;° 
最 终 得 到 迭代 式 如 式 (11-10) 、 式 (11-11) 所 示 。 
(RH") x 
Wa = Wa > — -10 
ik ** WHH D; (11-10) 
E (WTR), | 
Hy — Hy QVWH (11-11) 


式 (11-10) 和 式 (11-11) 保 证 迭代 结果 始终 为 非 负 值 ,反复 迭代 至 目标 函数 小 
F 等 于 预 设 定 的 阔 值 为 止 ,完成 此 优化 问题 。 


11.3 两 阶段 近邻 选择 


11.3.1 两 阶段 天 近邻 选择 

本 章 提出 的 算法 在 两 个 阶段 运用 大 NN 算法 来 寻找 项 目的 最 近邻 居 , 第 一 阶 
段 是 在 项 目 非 负 特征 空间 下 ,采用 式 (4-3) 的 计算 方法 得 到 项 目 相似 度 矩阵 ,在 此 ， 
对 每 个 项 目 取 k(k 二 10,20,30) 个 邻居 ,得 到 项 目 邻 居 群 Qi 。 第 二 阶段 是 在 将 项 目 
“热度 ”融入 相似 度 空间 后 ,在 项 目 局 部 信任 空间 中 再 次 寻找 最 近邻 居 。 

11.3.2 项目“ 热度 "和 局 部 信任 

单个 项 目 在 全 部 项 目 中 的 “热度 ”由 两 部 分 构成 , 即 项 目 被 用 户 评价 的 次 数 和 
在 第 一 阶段 近邻 选择 时 项 目 被 其 他 项 目 作为 邻居 的 次 数 。 此 概念 是 用 户 和 项 目 关 
联 关系 的 深度 挖掘 。 用 式 (11-3) 表 示 项 目 之 热度 ”, 且 OT; <1. 

局 部 信任 : 采用 4. 3 节 中 提出 的 局 部 信任 的 思想 。 

11.3.3 预测 评分 

预测 用 户 wx 对 项 目 i 的 评分 ,得 到 预测 和 矩阵。 计算 如 式 (11-12) 所 示 。 





t 
SOT, (Py) * rai 
bui = 二 一 一 (11-12) 


式 中 ; | BE NN 算法 得 到 的 项 目 ; 的 邻居 数 。 
11.4 算法 描述 


算法 基本 思想 : 首先 利用 非 负 和 矩阵 分 解 得 到 项 目 非 负 特征 空间 ,接着 采用 
式 (4-3) 的 相似 度 计算 方法 得 到 项 目 间 相似 度 ,然后 根据 上 NN 算法 得 到 第 一 阶段 
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邻居 集 ,在 此 基础 上 引入 项 目的 “热度 ”概念 ,结合 项 目 相 似 度 得 到 局 部 信任 ; 在 第 
二 阶段 邻居 选择 ,最 终 完 成 预测 评分 。 


算法 11-1 CFNMF-HR 算法 


输入 : FEE R, 

输出 : 预测 矩阵 Rua. 

步骤 1: 使 用 非 负 和 矩阵 分 解 方法 分 解 尺 得 到 降 维 后 的 矩阵 到 A H o 

步骤 2: 在 项 目 非 负 特征 空间 下 ,使 用 式 (2-3) 计 算 项 目 i 和 项 目 j 的 相似 度 sim(i,j)。 

步骤 3: 根据 二 NN 算法 , 设 定 k(k 二 20) 个 邻居 ,得 到 项 目 邻 居 群 Q ,由 项 目 邻居 群 Qi 得 
到 q ,遍历 原始 矩阵 尺 得 到 f;。 

步骤 A. 由 式 (3-3) 计 算 项 目的 “热度 "Ti ,并 将 T; 填充 为 矩阵 ,使 用 式 (3-4) 计 算 项 目 间 
局 部 信任 。 

步骤 5: HU ANN 算法 ,得 到 项 目的 最 近邻 居 集 。 

步骤 6: 由 式 (4-12) 进 行 预测 评分 。 

步骤 7: 根据 Top-N 方法 ,将 预测 评分 最 高 的 N 个 项 目 推荐 给 相应 的 用 户 。 

算法 结束 





CFNMF-HR 算法 利用 用 户 和 项 目 之 间 的 潜在 关系 达到 对 维 空间 的 简化 ,使 
用 非 负 和 矩阵 分 解 来 增加 数据 的 密度 ,将 项 目的 “热度 ”作为 权重 加 入 到 相似 度 计算 
中 ,不 仅 能 克服 数据 稀 朴 性 问题 ,还 能 避免 过 于 强调 相似 度 的 作用 ,和 鲁 棒 性 更 好 , 提 
高 了 推荐 的 精度 。 


11.5 实验 结果 分 析 


11.5.1 不 同 策略 下 相似 度 的 分 布 


图 11-1 为 不 同 策略 下 相似 度 的 分 布 ,显示 了 基于 SVD 和 NMF 下 分 别 得 到 的 
项 目 隐 式 空间 后 ,采用 式 (4-3) 的 相似 度 计算 方法 得 到 的 项 目 间 相 似 度 的 分 布 情 
Ui. SVD 策略 下 ,相似 度 值 主要 分 布 在 [0,0. 2] ,分 布 过 于 极端 。NMF 策略 下 , 相 
似 度 分 布 比较 均匀 ,分 布 在 [0.0.5]。 

由 于 SVD 策略 下 的 隐 式 空间 中 存在 大 量 负 值 ,此 情况 不 符合 现实 ,因为 项 目 
特征 为 负 值 的 含义 是 项 目 可 能 为 这 一 类 别 的 概率 为 负 , 所 以 造成 了 相似 度 空 间 中 
值 的 丢失 ,丢失 率 达 13.9%; 而 在 NMF 策略 下 ,丢失 率 仅 有 0.4%。 通 过 以 上 分 
HT. NMF 策略 相对 于 SVD 策略 ,具有 更 好 的 鲁 棒 性 。 


11.5.2 两 种 因素 的 分 布 与 分 析 


图 11-2 为 相似 度 /热度 的 分 布 ,显示 了 影响 最 终 预 测 结果 的 两 个 因素 (相似 度 
和 “热度 ”) 的 分 布 情况 。 通 过 实验 得 出 ,在 第 一 阶段 邻居 选择 中 ,邻居 数量 参数 
k=20 时 ,RMSE 达到 最 优 。 以 下 结果 是 当 & 一 20 时 的 分 布 情况 ,相似 度 主要 分 布 
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(a) 基于 SVD 的 相似 度 (b) 基于 NMF 的 相似 度 
图 11-1 不 同 策略 下 相似 度 的 分 布 
在 [0,0.5]， 热 度 " 值 主要 分 布 在 [0.4,0. 9]。 在 推荐 系统 中 ,每 个 项 目 都 可 以 一 个 
可 量化 的 “热度 "指标 ,符合 现实 世界 中 热门 商品 被 热卖 的 现象 。 每 个 项 目 有 多 个 
相似 的 邻居 项 目 , 可 协助 对 未 知 评分 项 目 进行 合理 预测 评分 。 因 此 ,相似 度 和 “ 热 
度 ” 是 完全 不 同 的 两 个 因素 ,把 项 目的 “热度 "概念 引入 协同 过 滤 推 荐 算法 是 可 行 的 。 
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11-2 ”相似 度 /* 热 度 ” 的 分 布 


11.5.3 实验 结果 及 分 析 


图 11-3 为 不 同 推荐 策略 的 RMSE。3 种 算法 中 RMSE( 参 考 4.4.1 节 ) 值 随 着 
邻居 数目 的 变化 而 发 生变 化 , 相 比 传统 的 基于 项 目的 协同 过 滤 ICF 算法 和 传统 的 
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基于 SVD 的 协同 过 滤 SVD-CF 算法 ,本 章 提 出 的 CFNMF-HR 算法 在 邻居 数 小 于 
等 于 10 个 时 ,RMSE 值 呈 现 指 数 式 的 下 降 , 当 邻 居 数 大 于 10 个 时 ,变化 趋 稳 ; 当 
邻居 数 等 于 14 时 ,推荐 性 能 达到 最 好 , RMSE=0. 9651, 比 SVD-CF 精度 提高 了 
1. 67%。 随 后 随 着 邻居 数目 的 增加 RMSE 又 开始 反弹 ,说 明 邻 居 数 目 对 于 算法 的 
影响 较 大 。CFNMF-HR 算法 和 SVD-CF 算法 相对 于 ICF 算法 ,RMSE 优化 更 明 
显 。CFNMF-HR 算法 又 相 比 SVD-CF 算法 ,RMSE 值 一 直 处 于 下 降 状 态 并 且 推 
荐 精度 更 优 , 说 明 本 章 提出 的 算法 是 有 效 可 行 的 ,具有 更 好 的 鲁 棒 性 ,不 仅 有 效 地 
增 大 数据 密度 ,还 提高 了 协同 过 滤 推荐 算法 的 预测 精度 。 
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图 11-3 不 同 推荐 策略 的 RMSE 
本 章 小 结 


本 章 提出 将 非 负 和 矩阵 分 解 NMF 和 “热度 "模型 相 结合 的 协同 过 滤 推 荐 算法 。 
首先 运用 NMF 得 到 项 目的 非 负 隐 式 特征 空间 。 然 后 用 改进 的 余弦 相似 度 计 算 项 
目 间 相似 度 , 生 成 第 一 阶段 邻居 集 。 接 着 引入 项 目 “ 热 度 ”, 构 建 项 目 “ 热 度 ” 模 型 并 
融入 到 相似 度 模型 中 ,以 做 出 更 高 精度 推荐 预测 。 最 后 在 MovieLens 数据 集 对 本 
章 提 出 的 算法 进行 验证 。 该 算法 弥补 了 SVD 出 现 负 值 的 问题 ,并 且 增 强 了 算法 的 
和 鲁 棱 性 ,提高 了 算法 的 预测 精度 。 
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第 四 篇 ”基于 信任 的 协同 
过 滤 推 荐 算法 


传统 的 推荐 个 性 化 推荐 算法 ,推荐 的 往往 都 是 热门 的 商品 ,这 样 造 
成 热门 的 商品 更 加 热门 ,而 处 在 “长 尾 分 布 ? 上 的 商品 得 不 到 重视 。 尤 其 
是 在 数据 稀疏 性 情况 下 ,为 提高 数据 利用 率 , 研 究 人 员 将 用 户 间 的 社会 
关系 信息 融入 到 推荐 系统 中 ,提出 了 基于 信任 的 协同 过 滤 推荐 算法 , 达 
到 优化 推荐 精度 的 作用 。 


市 偏 置 的 专家 信任 推荐 算法 





本 章 针 对 传统 基于 用 户 的 协同 过 滤 推 荐 算法 较 少 考虑 信任 对 象 所 处 环境 的 实 
时 变化 ,评价 项 目 较 少 用 户 的 评分 预测 准确 度 不 高 的 问题 ,提出 一 种 带 偏 置 的 专家 
信任 推荐 算法 。 为 使 对 象 之 间 的 信任 度 得 到 较 好 的 量化 ,合理 预测 用 户 评分 ,首先 
利用 专家 的 评价 可 信 度 、 活 跃 度 .评价 偏差 度 计 算得 到 专家 的 信任 值 。 其 次 在 形成 
评分 的 过 程 中 把 改进 专家 算法 与 用 户 、 项 目 偏 置 算法 相 融 合 ,充分 利用 偏 置信 息 ， 
以 便 获得 更 加 客观 的 预测 评分 。 最 后 实验 结果 表明 ,在 不 同 数据 集 上 相 比 于 传统 
的 推荐 算法 ,该 算法 在 评价 项 目 较 少 用 户 的 预测 准确 度 方面 有 显著 提高 。 


12.1 引言 


推荐 系统 的 基本 功能 是 利用 用 户 对 项 目的 历史 评价 信息 产生 推荐 。 大 数据 时 
代用 户 接 触 的 信息 呈 指 数 级 ,实际 操作 过 程 中 ,由 于 用 户 精 力 有 限 , 造 成 大 量 项 目 
未 得 到 评分 ,导致 评价 矩阵 极为 稀疏 。 传 统 协同 过 滤 算 法 的 稀 朴 用 户 ( 评 价 项 目 相 
对 较 少 的 用 户 ) 评 分 预测 准确 度 较 低 ,如 何 提高 稀 朴 用 户 的 推荐 准确 性 成 为 比较 热 
门 的 研究 课题 。 

针对 稀 玻 用 户 评分 预测 问题 , 常 采用 的 处 理 方 法 有 : 

CD 数据 平滑 算法 : 对 用 户 尚未 评分 的 项 目 进行 填充 。 文 献 L6] 运 用 其 他 用 户 
对 该 项 目的 评分 均值 填充 缺 省 值 ; 文献 L7] 将 用 户 信息 聚 类 后 ,以 分 类 用 户 的 评分 
来 填充 缺 省 值 。 

(2) 专家 算法 : 把 项 目 按 类 别 划分 ,找到 每 个 类 别 的 专家 ,利用 专家 评分 预测 
用 户 对 项 目 评分 。 文 献 [8] 提 出 了 把 专家 算法 与 传统 协同 过 滤 技 术 相 结合 ; 文献 
[9] 提 出 了 “明星 用 户 ?” 的 算法 ,在 评分 预测 阶段 加 权 平均 所 有 “明星 用 户 ” 的 评分 。 

以 上 两 类 算法 一 定 程 度 上 缓解 了 稀 朴 用 户 评分 预测 准确 性 不 高 的 问题 ,但 是 
计算 得 到 稀 朴 用 户 与 用 户 、 稀 玻 用 户 与 各 个 "专家 ?之 间 的 相似 度 区 分 不 明显 ,无 法 
合理 利用 用 户 与 专家 的 预测 信息 。 鉴 于 此 ,本 章 提出 IBETA 算法 (Improved With 
Biased Expert Trust Algorithm,IBETA) ,该 算法 在 专家 算法 的 基础 上 添加 专家 信 
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任 ,在 评分 形成 的 过 程 中 区 别 对 待 不 同 级 别 专家 的 预测 值 ,同时 将 独立 于 用 户 一 项 
目 评分 以 外 的 因素 添加 到 评分 预测 公式 中 ,使 预测 值 更 加 合理 。 


12.2 相关 工作 


12.2.1 专家 算法 


定义 12.1 对 于 A 类 项 目 ,专家 E. 的 定义 如 式 (12-1) 所 示 。 
ILI<IL| (Vu€U—E.Vv€E) (12-1) 
RP: 1 一 一 用 户 u FAMAE KWEA: 
1, 一 一 专家 wv 评价 的 项 目 集合 ; 
0 一 一 所 有 用 户 集合 。 
统计 每 个 用 户 评价 A 类 项 目 数量 , 当 用 户 评价 项 目的 数量 使 式 (12-1) 成 立 
时 ,该 用 户 被 定义 为 "专家 ”。 


12.2.2 生成 推荐 值 


Cho 提出 的 专家 算法 在 计算 预测 评分 时 ,采用 无 条 件 相 信 专 家 的 策略 (Expert 
Algorithm, EA) ,评分 预测 采用 式 (12-2) 所 示 。 


Pos = Fae HED ot — Fone) (12-2) 
v€E, 
IP: p, —— 4j HE POSEE c 类 电影 i 的 预测 评分 ; 


六 ,一 一 用 户 x 对 c 类 电影 评分 的 平均 值 ; 
rw 一 一 专家 wv 对 项 目 i 的 评分 ; 
Fo ER v c 类 项 目 评分 的 平均 值 ; 








E, < 类 项 目 专家 集合 。 
需要 预测 的 项 目 属于 多 个 类 别 时 ,采用 式 (12-3) 计 算 评 分 值 。 
Pat = Tabet (12-3) 
Gil cee, 
式 中 : ci 项 目 所 属 的 类 数 ; 
思 .se 一 一 每 一 类 预测 的 值 。 


以 上 预测 评分 算法 的 运行 时 间 复 杂 度 较 低 ,但 稀疏 用 户 评分 预测 准确 性 较 低 ， 
原因 是 该 算法 在 项 目 确定 的 情况 下 ,对 于 不 同 用 户 的 预测 分 数 几 乎 是 一 样 的 ,因为 
专家 的 选择 只 考虑 了 当前 用 户 需 要 预测 的 项 目 ; 在 选 定 专 家 集合 中 ,同等 对 待 每 
个 专家 的 预测 值 。 专 家 的 专业 水 平 有 高 有 低 , 以 上 算法 显然 有 失 偏 颇 。 

Breeze 提出 “专家 与 相似 度 结合 算法 ”(Expert Similarity Algorithm,ESA) 在 
计算 预测 评分 时 ,采用 把 专家 看 成 某 种 意义 上 的 近邻 ,在 预测 评分 时 根据 专家 与 当 
前 用 户 相 似 度 的 大 小 赋予 不 同 的 权重 值 , 评 分 预测 如 式 (12-4) 所 示 。 








(12-4) 


RP: sue HG HT FL A A A. 

与 EA 算法 相 比 ,ESA 算法 对 于 不 同 的 专家 赋予 了 不 同 的 权重 值 。 

随 着 稀 朴 性 的 增加 , 稀 下 用 户 与 各 个 专家 的 邻近 程度 区 分 不 明显 ,计算 量 增 加 
的 同时 稀 玻 用 户 的 推荐 准确 性 并 没有 实质 性 的 提高 。 


12.2.3 Baseline 预测 


评估 一 个 策略 的 性 能 好 坏 ,需要 建立 一 个 对 比 基 线 ,在 对 比 基 线 的 基础 上 观察 
后 续 实 验 效果 的 变化 。 观 测 到 的 评分 数据 有 一 些 和 用 户 无 关 的 因素 产生 的 效果 ， 
即 一 部 分 因素 是 和 用 户 对 物品 的 喜好 无 关 而 只 取决 于 用 户 或 物品 本 身 的 特性 。 例 
如 ,乐观 积极 的 用 户 对 于 一 些 项 目的 评分 普遍 较 高 ,而 翡 观 消极 的 用 户 对 项 目的 评 
分 普遍 较 低 , 也 就 是 说 即使 这 两 类 用 户 对 同一 项 目的 评分 相同 ,但 是 对 物品 的 喜好 
程度 确 是 不 一 样 的。 对 于 项 目 来 说 道理 是 一 样 的 ,受用 户 欢 迎 的 项 目 评分 普遍 较 
高 ,不 受用 户 欢 迎 的 项 目 评分 较 低 ,加 入 偏执 信息 的 评分 预测 公式 如 式 (12-5) 
表示 。 
R'G.j) =p+6G) +6G) (12-5) 
式 中 : R* (i,j) 一 一 用 户 i 对 项 目 j 的 预测 评分 ; 
/一 一 数据 集 的 总 体 偏 置信 息 ; 
bG)—— HP i 的 偏 置 信息 ; 
50(j) 一 一 项 目 j 的 偏 置信 息 。 
假设 项 目的 总 体 偏 置 为 a, 项目 1 的 口碑 普遍 高 于 其 他 项 目的 值 为 6, 如 果 
ui 是 悲观 严谨 的 ,其 b,(i 让 ) 值 为 ce, 那么 根据 式 (12-5)u, 对 项 目 1 的 预测 值 为 a 十 
b; 
计算 OG) AM CO B EE SE HS (12-60 3 (02 DR fü o 
SIR Gj) —p—bG) 








H -- d e 
bG) xen (12-6) 
RGA 一 
bj) = = 一 12-7) 
M à: +1 U; | ^ 
AP: i HP: 
一 一 项 目 ; 


1 一 一 用 户 i 评价 过 的 项 目 集合 ; 
4 一 一 数据 集 的 总 体 偏 置信 息 ; 
| 一 一 集合 的 个 数 ; 
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Ui 一 一 评价 过 项 目 7 的 用 户 集合 ; 
|U;| — 8 & I C 
SO ALAS 需要 实验 确定 。 


12.3 改进 专家 算法 


从 专家 算法 提出 至 今 ,许多 研究 人 员 都 围绕 着 利用 专家 与 用 户 、 项 目的 关系 提 
升 推荐 准确 度 。 但 是 现实 生活 中 人 们 在 参考 权威 人 士 的 意见 时 ,必然 要 考虑 权威 
人 士 的 可 信和 度 。 到 目前 为 止 推荐 系统 并 没有 对 “信任 ”给 出 一 个 具体 的 概念 。 在 可 
查 资料 中 ,信任 是 指 接受 推荐 者 对 提供 推荐 者 特定 行为 的 主观 可 能 性 预测 。 在 社 
交 网 络 中 信任 需要 考虑 的 因素 有 很 多 ,完整 地 考虑 各 个 方面 难度 很 大 且 通 常 没有 
太 大 必要 ,在 面 对 同 一 个 用 户 时 ,只 需要 对 该 用 户 所 处 的 情形 进行 相应 的 加 强 和 减 
弱 , 以 便于 对 对 象 之 间 的 信任 程度 进行 较 好 的 量化 。 


12.3.1 改进 专家 信任 


在 推荐 系统 中 存在 着 各 种 各 样 的 数据 ,其 中 包括 了 评分 数据 、 项 目 属性 数据 、 
用 户 属性 数据 等 ,这 些 数据 基本 构成 了 本 章 需 要 的 信任 度量 情境 。 充 分 考虑 专家 
及 用 户 所 在 环境 ,本 章 用 以 下 定义 量化 专家 信任 中 涉及 的 重要 概念 。 

定义 12.2 专家 评价 可 信和 度 

一 个 专家 评价 的 项 目 数量 越 多 ,可 以 从 一 定 程度 上 反映 出 其 评价 项 目的 质量 、 
可 信 度 ,度量 专家 评价 可 信 度 可 以 用 式 (12-8) 表 示 。 


me Q, 
max(Qu ) 








(12-8) 


式 中 : Qu 一 一 指 所 有 用 户 ; 

Q, 一 一 专家 评价 过 的 所 有 项 目的 集合 ; 

max(Qu) 一 一 所 有 专家 中 评价 项 目的 最 大 值 。 

定义 12.3 专家 专业 度 

咨询 专家 意见 之 前 ,人 们 通常 会 考虑 专家 的 专业 度 。 专 家 并 不 是 对 所 有 种 类 
的 项 目 都 具有 全 面 的 专业 知识 ,在 某 种 情况 下 ,一 名 专家 显然 只 会 对 一 个 或 者 很 少 
种 类 的 项 目 上 投入 比较 多 的 精力 ,具体 表现 为 在 某 一 类 项 目 上 评价 比较 多 的 项 目 ， 
因此 专家 专业 度 用 式 (12-9) 表 示 。 





R, == (12-9) 


RP: Tw 一 一 专家 已 评价 且 属 于 某 一 种 类 的 所 有 项 目 集合 ; 
T 一 一 系统 中 获得 过 用 户 评价 且 属 于 这 一 主题 的 所 有 项 目 集合 。 
定义 12.4 专家 评价 偏差 度 
专家 计算 的 预测 评分 与 真实 评分 之 间 的 差 值 为 专家 评价 偏差 度 ,如 式 (12-10) 





所 示 。 
P, = = (12-10) 


式 中 : 2. 一 一 最 小 偏差 项 目的 集合 。 

在 计算 Z, 时 ,利用 项 目 评分 的 平均 值 $ 表示 项 目的 真实 质量 ,专家 评价 的 偏 
ZEW BAN F 9, 则 把 此 评分 项 目 加 入 到 Z, 中 ,对 专家 及 项 目 i: WR numo 
成 立 , 则 ico: 在 本 实验 中 o 如 果 太 小 则 Z, 趋 于 零 ,计算 就 没有 太 大 意义 ; 太 大 会 
使 o ÉF 1, 计 算 效 果 不 理想 。 本 实验 9 取 为 0. 37。 

基于 以 上 表述 专家 的 D, , P, ,R, ,权重 系数 w ,ws ,zs 及 式 (12-11) 计 算 专 家 
信任 值 。 





TR, = w * D, + we * Py + ws * Ry (12-11) 

式 (12-11) 中 权重 系数 需要 采用 原始 专家 算法 CE 矫正 ,调节 原理 是 设置 一 个 

初始 RMSE 值 ,利用 评分 预测 公式 计算 预测 值 并 计算 一 次 RMSE 值 ,当前 RMSE 

值 大 于 设 定 RMSE 值 时 ,利用 控制 变量 法 更 新 一 次 权重 系数 ,记录 每 个 参数 达到 
最 优 RMSE 值 时 的 值 ,最 后 归 一 化 处 理 三 个 参数 得 到 最 终 权重 系数 值 。 


12.3.2 评分 形成 


由 于 传统 相似 度 计 算 对 稀 朴 用 户 基 本 失效 ,本 章 把 专家 可 信 度 .用 户 、 项 目 偏 
置 与 专家 算法 相 结合 ,如 式 (12-12) 所 示 生 成 预测 值 。 








aes E N = 4 € E, fue + 
Dike. de SE. 
SEG, v€E, 
bu G) + bi(j) (12-12) 


式 中 : TR, 一 一 专家 可 信和 度 ; 

C; 一 一 当前 项 目 所 属 类 别 总 数 ; 

Sue FAP 评价 的 c 类 项 目 占 所 有 c 类 项 目的 百分比 ; 

buli) FAR U 的 偏 置 ; 

biCj) —d3J3À H i 的 偏 置 。 

该 算法 对 于 每 个 电影 类 别 的 专家 评分 ,根据 专家 在 此 类 别 评价 项 目 中 的 信任 

值 ,加 权 计 算 预 测评 分 ,有 效 避 免 了 不 同类 别 专 家 对 项 目的 评分 同等 对 待 的 问题 ， 
根据 专家 信任 值 赋予 不 同 专家 不 同 的 权重 ,在 一 定 程度 降低 了 预测 误差 。 确 定 专 
家 依据 的 是 用 户 的 历史 评价 信息 ,在 该 过 程 中 主观 因素 起 决定 性 作用 ,为 了 提升 算 
法 的 鲁 棒 性 ,在 形成 评分 的 过 程 中 需要 考虑 独立 于 评分 以 外 的 客观 因素 。 本 章 把 
用 户 、 项 目 偏 置 引入 到 评分 预测 公式 中 ,在 改进 专家 算法 形成 评分 的 基础 上 引入 用 
P 项目 偏 置 ,进一步 提升 了 预测 准确 性 及 合理 性 。 
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12.3.3 算法 描述 


算法 12-1 CFNMF-HR 算法 


输入 : 评分 矩阵 R 及 项 目 类 别 和 矩阵 .RMSE 阔 值 0. 98,Round 值 。 
输出 : 预测 矩阵 Rua. 
步骤 1: 数据 预 处 理 ; Baseline 预测 确定 数据 集 上 Ai ,az 的 值 ; 初始 化 w sw ws. 
步骤 2: 利用 定义 12. 1 确定 每 个 类 别 的 专家 。 
步骤 3: 根据 评分 偏差 修正 一 次 w sw ,ws ,直到 出 现 最 优 RMSE 值 。 
for i=l; round 
根据 式 (12-2) 计 算 预 测 值 并 计算 RMSE 值 。 
站 (当前 RMSE 值 之 设 定 RMSE 值 ) 
修正 一 次 wr ,ze ,ros 的 值 (控制 变量 法 ); 
end 
i++; 
end 
步骤 4: 根据 式 (12-6) 式 (12-7) 计 算 用 户 、 项 目 偏 置 。 
步骤 5: 根据 步骤 2 寻找 到 的 专家 及 式 (12-12) ,形成 预测 值 。 
步骤 6: 产生 预测 矩阵 Rua. 
算法 结束 





12.4 实验 结果 与 分 析 


12.4.1 数据 集 


本 实验 分 别 在 Epinion Ciao, MovieLens 三 个 数据 集 进行 ,这 三 个 数据 集 都 包 
含 了 用 户 对 项 目的 评分 且 分 值 为 1~5 的 离散 值 , 数 据 集 的 具体 信息 如 表 12-1 





所 示 o 
表 12-1 实验 数据 集 
数据 集 用 户 数目 项 目 数目 评分 数 
MovieLens 943 1682 100 000 
Ciao 7375 106 797 284 086 
Epinion 22 166 296 277 922 267 


12.4.2 评估 标准 


评估 推荐 系统 预测 准确 性 的 标准 分 为 决策 精度 标准 和 统计 精度 标准 两 类 。 本 
章 采 取 了 对 特大 或 特 小 误差 反应 敏感 的 均 方 根 误差 (RMSE)。 在 推荐 系统 中 
RMSE 作为 一 种 常用 度量 误差 标准 被 广泛 使 用 ,其 原理 是 通过 计算 用 户 关 于 项 目的 


预测 值 与 真实 值 之 间 的 偏差 平方 和 与 用 户 个 数 n 比值 的 平方 根 ,如 式 (12-13) 所 示 。 


"(zi — 20)? 
RMSE = DUCERE (12-13) 
AP: z 预测 值 ; 


z, 一 一 与 预测 值 对 应 的 真实 值 。 
12.4.3 实验 结果 及 分 析 


1. Baseline 预测 

将 数据 集 的 90% 作 为 训练 集 ,其 余 的 10% 作 为 测试 集 。 首 先 根据 项 目 评 分 的 
平均 值 确定 为 数据 集 的 总 体 偏 置 y, 其 次 根据 式 (12-6) \ 式 (12-7) 及 初始 化 的 Ai Ae 
计算 用 户 及 项 目的 偏 置 ,调整 ,2s 的 值 提高 Baseline 的 预测 RMSE 值 。 选 择 
Baseline 预测 的 目的 在 于 该 算法 的 训练 时 间 短 ,预测 精度 高 ,可 以 通过 实验 训练 得 
到 最 优 参数 。 

如 图 12-1 所 示 是 MovieLens 数据 集 的 Baseline 预测 。 经 实验 发 现 当 ) 一 3， 
à2=6, RMSE 达到 最 优 ,最 小 值 为 0. 964. 





RMSE 





图 12-1 MovieLens 数据 集 Baseline 预测 


如 图 12-2 所 示 是 在 Ciao 数据 集 的 Baseline 预测 。 经 实验 发 现 当 ) =58.A.= 
43, RMSE 达到 最 优 ,最 小 值 为 0. 976。 

如 图 12-3 所 示 是 在 Epinions 数据 的 Baseline 预测 。 经 实验 发 现 当 1 二 53， 
A2 =56, RMSE 达到 最 优 ,最 小 值 为 0. 998。 

2. 用 户 可 信 度 指标 分 布 与 分 析 

以 MovieLens 1M 数据 集 为 例 , 图 12-4 为 评价 指标 分 布 图 ,给 出 用 户 专 业 度 、 
评价 可 信 度 .评价 偏差 度 的 分 布 情况 。 其 中 58. 21%% 的 用 户 专业 度 分 布 在 [0,0. 2], 
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图 12-2 Ciao 数据 集 Baseline 预测 


RMSE 





40 40 


h A 


图 12-3 Epinion 数据 集 Baseline 预测 


56.4% 的 用 户 评价 可 信和 度 分 布 在 [0,0. 1] ,说 明 多 数 用 户 的 专业 度 .评价 可 信和 度 两 种 
指标 较 低 ,少数 用 户 评价 可 信 度 能 在 全 体 的 用 户 评价 可 信和 度 中 体现 个 性 化 的 特质 。 
从 图 12-4 可 以 看 出 ,用 户 的 评价 偏差 度 分 布 几 乎 呈正 态 分 布 ,评价 偏差 度 分 布 在 
[0.2,0.6] 的 用 户 所 占 比 例 为 77.6%% ,说 明 大 多 数 用 户 的 评价 偏差 度 就 比较 高 ( 评 
价 比较 接近 真实 评分 )。 以 上 足以 说 明 选 定 专业 用 户 以 后 (专家 ) ,该 专家 对 项 目的 
评分 信任 度 可 以 由 以 上 三 种 指标 体现 。 





评价 可 信 度 评价 偏差 度 





所 占 比例 /% 所 占 比例 /% 所 占 比 例 /% 
图 12-4 评价 指标 分 布 图 


3. 稀疏 用 户 分 布 

对 于 大 型 数据 集 ,稀疏 用 户 的 数量 比较 大 。 图 12-5 为 用 户 评价 项 目 数量 分 布 
图 ,按照 用 户 评价 项 目 数量 ,把 MovieLens 1M 数据 集 .Ciao 数据 集 、Epinion 数据 
集 的 用 户 分 为 四 类 ,可 以 看 出 三 种 数据 集 第 一 类 用 户 ( 本 章 视 为 稀 跑 用 户 ) 占 全 部 
用 户 的 比例 较 大 。 





MovieLens 1M Ciao Epinions 
E 60 7 "a 
9 £L 
5 5 
3 = 
a = p01 
ok- 
80~160 
>160 
>10 i >80 
FEAE ® 评价 项 目 数 评价 项 目 数 


图 12-5 用 户 评价 项 目 数 量 分 布 图 


4. 专家 可 信和 度 分 布 与 分 析 

以 MovieLens 1M 数据 集 为 例 , 图 12-6 为 专家 可 信 度 分 布 图 ,表示 专家 信任 值 
随 着 矫正 次 数 的 变化 情况 。 在 实验 开始 阶段 ,专家 可 信和 度 指标 之 间 系 数 是 初始 化 
值 ,所 以 专家 可 信 度 比较 低 , 随 着 矫正 次 数 的 增加 专家 信任 值 从 100 次 矫正 的 0. 12 
提升 到 0. 63 共 经 过 了 400 次 的 矫正 ,从 400 次 开始 专家 信任 值 稳定 在 L0. 63， 
0. 69] ,此 时 得 出 wi ,wz ,ws 值 分 别 为 0. 31,0. 46.0. 23 ,在 后 续 计 算 专 家 对 此 类 别 
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项 目 评分 时 ,可 以 直接 利用 此 训练 后 的 系数 值 , 但 是 对 于 不 同类 别 的 专家 信任 因子 
系数 值 不 同 ,需要 同样 的 方法 训练 得 到 。 
































0-00 200 300 400 500 600 700 800 900 1000 
图 12-6 专家 可 信 度 分 布 图 


5. 在 不 同 数据 集 上 稀 疏 用 户 预测 对 比 

如 图 12-7 至 图 12-9 所 示 分 别 为 MovieLens 1M 数据 集 、Ciao 数据 集 和 
Epinion 数据 集 上 三 种 算法 对 比 。 可 以 明显 看 出 ,在 实验 开始 阶段 三 种 算法 针对 稀 
玖 用 户 的 预测 准确 度 较 低 。 随 着 专家 人 数 的 增加 , 相 比 于 传统 的 EA、ESA 算法 ， 
本 章 提 出 的 IBETA 算法 在 三 种 数据 集 下 RMSE 有 普遍 提高 ,原因 是 随 着 独立 于 
用 户 与 项 目的 偏 置信 息 的 加 入 ,预测 稀 玖 用 户 的 项 目 评分 增加 了 客观 的 预测 值 。 























图 12-7 MovieLens 1M 数据 集 上 三 种 算法 对 比 
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随 着 稀 朴 用 户 评价 项 目的 增多 ,三 种 算法 的 预测 准确 性 都 有 明显 的 上 升 趋势 ,原因 
是 随 着 用 户 评价 项 目的 增多 ,相似 度 计算 能 够 更 加 明确 地 区 分 出 用 户 与 专家 之 间 
的 相似 度 ,由 近邻 算法 的 特点 不 难 理解 预测 准确 性 的 提升 。 
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图 12-9 Epinion 数据 集 上 三 种 算法 对 比 
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本 章 小 结 


本 章 研 究 了 专家 算法 的 产生 与 改进 ,IBETA 算法 在 ESA 算法 和 EA 算法 的 
基础 上 加 入 专家 信任 度 用 户 、 项 目 偏 置信 息 。 实 验 表 明 ,改进 后 的 带 偏 置 专家 信任 
协同 过 滤 推 荐 算法 在 稀 玻 用 户 的 预测 准确 性 方面 有 较 大 提高 ,但 是 ,在 算法 的 改进 
过 程 中 专家 信任 指标 的 融合 还 不 够 完善 。 所 以 ,下 一 步 工作 的 重心 将 放 在 信任 的 
动态 调整 及 建立 有 效 的 信任 传递 机 制 ,使 信任 度量 更 加 合理 。 
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本 章 针 对 传统 基于 用 户 的 协同 过 滤 推 荐 算法 较 少 考虑 信任 对 象 所 处 环境 的 实 
时 变化 ,提出 一 种 结合 社交 网 络 的 专家 信任 推荐 算法 。 为 更 好 地 量化 对 象 之 间 的 
信任 度 ,首先 利用 专家 的 评价 可 信和 度 、 活 跃 度 .评价 偏差 度 wa 
家 的 信任 值 。 其 次 在 评分 形成 的 过 程 中 与 近邻 算法 相 融 合 ,明确 用 户 与 “专家 
ee 
邻 算 法 与 改进 专家 算法 的 权重 ,以 便 获 得 更 加 客观 的 项 目 评分 。 最 终 实 验 结果 表 
明 ,在 不 同 大 小 的 MovieLens 数据 集 上 相 比 于 传统 的 推荐 算法 ,本 章 提出 的 算法 在 
实时 推荐 预测 准确 度 方面 有 显著 提高 。 


13.1 引 


m} 


随 着 互联 网 信息 的 急剧 增长 ,“ 信 息 过 载 * 的 现象 越 来 越 严 重 , 推 荐 系统 作为 解 
决 信息 过 载 的 有 效 方案 ,目前 无 论 工业 界 还 是 学 术 界 ,对 如 何 完 善 协同 过 滤 推 荐 算 
法 都 展开 了 深入 的 研究 。 近 邻 模型 作为 协同 过 滤 推 荐 系统 的 关键 算法 , 因 其 原理 
简洁 且 具 有 较 低 的 时 间 复 杂 度 ,逐渐 成 为 当今 推荐 系统 中 被 广泛 使 用 的 算法 之 一 。 

专家 模型 作为 近邻 模型 的 可 选 方案 之 一 , 自 2012 年 被 Amatrin 外 提出 之 后 受 
到 广泛 关注 。2013 年 ,Kagita 提出 了 “明星 用 户 ” 算 法 ,该 算法 在 推荐 过 程 中 仅 使 

用 “明星 用 户 ” 的 偏好 ,并 没有 加 入 项 目的 相似 度 , 当 可 选 明 星 用 户 数 达 不 到 预先 设 
定 的 国 值 时 ,单一 考虑 “明星 用 户 ” 评 分 会 导致 该 算法 的 推荐 准确 度 不 高 。2014 年 
Cho 在 利用 专家 算法 形成 推荐 的 过 程 中 ,同时 兼顾 专家 与 近邻 的 项 目 评分 ,提高 了 
专家 算法 推荐 的 准确 性 及 合理 性 。2015 年 Won-Seok Hwang 为 了 使 推荐 准确 性 
进一步 提高 ,提出 了 专家 算法 与 协同 过 滤 技 术 的 结合 。Cho 和 Won-Seok Hwang 
提出 的 算法 ,虽然 在 一 定 程度 上 缓解 了 可 选 专家 人 数 达 不 到 预先 设 定 阔 值 时 的 推 
荐 问题 ,但 在 形成 推荐 的 过 程 中 ,把 专家 对 项 目的 评分 同等 看 待 显然 有 失 偏 颇 , 因 
为 专家 的 专业 水 平 有 高 有 低 ,可 信和 度 有 大 有 小 。 

针对 传统 专家 算法 在 评分 形成 的 过 程 中 同等 看 待 专家 评分 这 一 现象 ,本 章 提 
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出 了 一 种 结合 社交 网 络 的 专家 信任 推荐 算法 IETA 算法 (Improve Expert 
Trust Algorithm) ,该 算法 利用 相似 度 计算 公 式 得 到 用 户 间 的 相似 度 和 矩阵 ,同时 利 
用 项 目 类 别 矩 阵 确定 待 评分 项 目 类 别 ,进而 选 出 该 类 别 的 专家 ,通过 专家 信任 指标 
计算 专家 信任 度 。 通 过 赋予 与 用 户 相似 的 专家 不 同 的 信任 值 ,利用 专家 的 项 目 评 
分 及 信任 值 形成 最 终 的 推荐 。 


13.2 标注 与 相关 工作 


13.2.1 标注 


为 本 章 下 文 表述 方便 ,在 此 对 文中 使 用 的 标注 作 统一 说 明 , 如 表 13-1 所 列 为 
用 户 一 项 目 评分 矩阵 ,用 m 个 用 户 和 个 项 目的 评分 矩阵 R 来 标示 所 有 用 户 对 所 
有 项 目的 评分 ,范围 是 [1,5]。 
表 13-1 用 户 一 项 目 评分 矩阵 


i 








h i 
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如 果 用 户 w 未 对 项 目 i 评 分 ,那么 值 为 0, 如 式 (13-1) 所 示 。 表 13-2 所 列 为 项 
目 一 类 别 和 矩阵 。 
Riis 评分 
R= (13-1) 
0, 未 评分 
RP: R= {ri) Aum. 1Si<n) ,其 中 及 ,表示 用 户 w 对 项 目 i 的 评分 。 


表 13-2 项目 一 类 别 矩 阵 























e 
] £i C2 C3 ee Cis Cig 
i 1 0 1 0 1 0 
iz 0 0 0 0 0 i 
is 1 0 0 1 0 0 
d 0 0 1 1 0 0 

iai 1 0 0 1 0 0 
i, 0 Li 0 0 0 1 
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如 果 项 目 i 属于 类 别 c ,那么 值 为 1, 如 式 (13-2) 所 示 。 


1， 属于 
Ti, = (13-2) 
0， 不 属于 


sh: T= {t Sin. 1Sce<19) ,其 中 Ti,. 表 示 项 目 i 是 否 属于 类 别 c。 
13.2.2 近邻 模型 


近邻 模型 的 基本 原理 是 寻找 & 个 近邻 近似 替代 当前 用 户 。 在 协同 过 滤 推荐 算 
法 中 ,近邻 模型 分 为 基于 用 户 的 近邻 模型 和 基于 项 目的 近邻 模型 。 用 户 近邻 模型 
分 为 寻找 近邻 和 形成 推荐 两 部 分 ,为 了 解决 寻找 近邻 的 问题 ,首先 需要 找到 一 种 方 
式 来 表示 用 户 之 间 的 距离 关系 ,通常 用 户 之 间 的 邻近 程度 有 以 下 两 种 计算 方式 。 

1. 余弦 相似 度 

当 用 户 共同 评分 项 目 数 量 较 少 时 ,该 公式 计算 用 户 之 间 相 似 度 偏差 会 比较 大 。 
当 用 户 评分 项 目 数量 达到 一 定 值 时 ,即使 用 户 对 每 个 项 目的 评分 值 差别 较 大 ,该 算 
法 也 能 输出 较 高 的 相似 值 , 余 弦 相 似 度 公 式 如 式 (13-3) 所 示 。 
Mars 


Dares Dar 
WP: ri 与 rw 一 一 用 户 u 与 用 户 v 对 项 目 i 的 评分 ; 
了 一 一 用 户 “ 与 v 的 共同 评分 集合 。 
2. 改进 余弦 相似 度 
改进 余弦 相似 度 同 样 没有 解决 卫 较 少时 ,相似 度 计算 偏差 较 大 的 问题 。 但 是 
的 值 在 可 接受 范围 内 时 ,改进 余弦 相似 度 体 现 出 了 较 好 的 性 能 。 改 进 余弦 相似 
度 公式 如 式 (13-4) 所 示 。 


(13-3) 


sCusv) = 





SS ra — Fe) rs — Fo) 
ier 


€ 
JZ 一 元 ) APs Fr.) 
ier ier 


(13-4) 





sCusv) = 








RP: r, Sr.— AP u SHIP v 评分 的 均值 ; 
了 一 一 用 户 u 与 用 户 v 共同 评分 项 目 集合 。 





13.2.3 专家 算法 


定义 13.1 XT A 类 项 目 , 专 家 E. 定义 如 式 (13-5) 所 示 。 
ILI«IL| (V4.€U—E..Vv€ E) (13-5) 
AP: 1 一 一 用 户 a 评价 过 的 所 有 项 目 集合 ; 
1, 一 一 专家 wv 评价 的 项 目 集 合 ; 
0 一 一 所 有 用 户 集合 。 
统计 每 个 用 户 评价 A 类 项 目 数量 , 当 用 户 评价 项 目的 数量 使 式 (13-5) 成 立 
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时 ,该 用 户 被 定义 为 “专家 ”。 

专家 算法 在 形成 之 初 由 寻找 专家 与 生成 推荐 值 两 部 分 构成 ,但 是 在 实际 操作 
中 这 种 结构 推荐 效果 不 理想 , 随 着 越 来 越 多 的 专业 人 员 参 与 研究 和 改进 ,专家 算法 
目前 由 寻找 专家 、 计 算 专 家 与 用 户 的 相似 值 以 及 生成 推荐 值 三 部 分 组 成 。 

1. 寻找 专家 

根据 待 评 分 项 目 和 项 目 一 类 别 和 矩阵 ,确定 该 项 目 所 属 类 别 , 对 所 有 的 用 户 计算 
评价 该 类 别 所 有 项 目的 次 数 ,从 大 到 小 依次 排列 ,由 专家 的 定义 及 预先 设 定 阔 值 确 
定 专家 人 数 。 

2. 生成 推荐 值 

Pham 的 “专家 算法 ”中 ,在 计算 预测 评分 时 ,只 考虑 与 当前 用 户 相似 度 比较 高 
的 专家 建议 ,采用 无 条 件 相 信 专 家 的 策略 一 一 EA (Expert Algorithm)。 在 度量 专 
家 与 用 户 的 相似 度 时 采用 式 (13-4) ,最 终 评分 预测 如 式 (13-6) 所 示 。 


Deis = Fae HED ot — Fue) (13-6) 
v€E, 
式 中 : pi 一 一 当前 用 户 对 属于 c 类 电影 i 的 预测 评分 ; 
Tu HP u 对 c 类 电影 评分 的 平均 值 ; 
rui 一 一 专家 wv 对 项 目 i 的 评分 ; 
7 一 一 专家 wv 对 c 类 项 目 评分 的 平均 值 ; 
E,——c 类 项 目 专家 集合 。 
需要 预测 的 项 目 属于 多 个 类 别 时 ,计算 评分 值 如 式 (13-7) 所 示 。 
buc s (13-7) 
le: | ses 
式 中 : c; 一 一 项 目 所 属 的 类 数 ; 





以 上 预测 评分 算法 的 运行 时 间 比 较 短 ,但 是 它 在 预测 准确 性 方面 表现 一 般 。 
此 算法 在 项 目 确定 的 情况 下 ,对 于 不 同 用 户 的 预测 分 数 几乎 是 一 样 的 ,因为 专家 的 
选择 没有 考虑 当前 用 户 , 只 考虑 了 当前 用 户 需要 预测 的 项 目 。 


13.3 改进 专家 算法 


从 专家 算法 提出 至 今 ,许多 研究 人 员 都 围绕 着 利用 专家 与 用 户 、 项 目的 关系 提 
升 推荐 准确 度 。 但 是 现实 生活 中 人 们 在 参考 权威 人 士 的 意见 时 ,必然 要 考虑 权威 
人 士 的 可 信和 度 、 专 业 度 、 偏 差 度 等 影响 因子 。 到 目前 为 止 推荐 系统 并 没有 对 “信任 ” 
给 出 一 个 具体 的 概念 。 在 可 查 资料 中 ,信任 是 指 接受 推荐 者 对 提供 推荐 者 特定 行 
为 的 主观 可 能 性 预测 。 在 社交 网 络 中 信任 需要 考虑 的 因素 更 多 ,完整 地 考虑 各 个 
方面 难度 很 大 且 通 常 没 有 必要 ,在 面 对 同 一 个 用 户 时 ,只 需要 对 该 用 户 所 处 的 情形 
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进行 相应 的 加 强 和 减弱 ,以 便于 对 对 象 之 间 的 信任 程度 进行 较 好 的 量化 。 
13.3.1 重要 概念 


在 推荐 系统 中 存在 着 各 种 各 样 的 数据 ,其 中 包括 评分 数据 、 项 目 属性 数据 、 用 
户 属性 数据 等 ,这 些 数 据 基 本 构成 了 本 章 需 要 的 信任 度量 情境 。 充 分 考虑 专家 及 
用 户 所 在 环境 ,本 章 用 以 下 定义 量化 专家 信任 中 涉及 的 重要 概念 。 

定义 13.2 专家 评价 可 信和 度 

一 个 专家 评价 的 项 目 数量 越 多 ,可 以 从 一 定 程度 上 反映 出 其 评价 项 目的 质量 、 
可 信和 度 , 度 量 专 家 评价 可 信和 度 如 式 (13-8) 所 示 。 


Qu _ 
D, = Tasa) (13-8) 





RP: Qu 一 一 所 有 用 户 ; 
Q, 一 一 专家 评价 过 的 所 有 项 目的 集合 ; 
max(Qa) 一 一 所 有 专家 中 评价 项 目 最 多 的 数量 。 
定义 13.3 专家 专业 度 
咨询 专家 意见 之 前 ,人 们 通常 会 考虑 专家 的 专业 度 ,专家 并 不 是 对 所 有 种 类 的 
项 目 都 具有 全 面 的 专业 知识 ,在 某 种 情况 下 ,一 名 专家 显然 只 会 对 一 个 或 者 很 少 种 
类 的 项 目 上 投入 比较 多 的 精力 ,具体 表现 为 在 某 一 类 项 目 上 评价 比较 多 的 项 目 , 因 
此 专家 专业 度 如 式 (13-9) 所 示 。 
R,- Te (13-9) 


RP: T, 一 一 专家 已 评价 且 属 于 某 一 种 类 的 所 有 项 目 集合 ， 
T 一 一 系统 中 获得 过 用 户 评价 且 属 于 这 一 主题 的 所 有 项 目 集合 。 
定义 13.4 专家 评价 偏差 度 
专家 计算 的 预测 评分 与 真实 评分 之 间 的 差 值 为 专家 评价 偏差 度 ,如 式 (13-10) 
所 示 。 
P, = = (13-105 


式 中 : 2. 一 一 最 小 偏差 项 目的 集合 。 

在 计算 Z, 时 ,利用 项 目 评 分 的 平均 值 $ 表示 项 目的 真实 质量 ,专家 的 评价 的 
偏差 如 果 小 于 5, 则 把 此 评分 项 目 加 入 到 Z, 中。 对 专家 ROB i.n ruso 
成 立 , 则 i€E6, 通 过 实验 验证 6 如 果 太 小 则 Z, BFS ,计算 就 没有 太 大 意义 ; KK 
会 使 8 趋 于 1, 计算 效果 不 理想 。 本 实验 6 HU 0.37. 

基于 以 上 表述 专家 的 D,. Puo Ro WERA w ,ws ,ws, 计 算 专 家 信任 值 如 
式 (13-11) 所 示 。 








TR, = w + D, + w:* P, tws ° Ry (13-11) 
为 更 直观 地 体现 专家 信任 对 评分 预测 的 影响 ,利用 原始 专家 算法 与 信任 相 结 
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合 进行 调整 参数 值 。 本 章 所 涉及 的 三 种 信任 指标 相互 独立 ,权重 系数 的 最 优 值 选 
取 采 用 固定 两 个 调整 另外 一 个 的 策略 (如 设置 一 个 适当 的 RMSE 值 ,初始 化 wr. 
We .ws ,把 专家 信任 值 与 式 (13-6) ` 式 (13-7) 结 合 产生 预测 ,计算 此 时 RMSE 值 ,如 
果 当 前 RMSE 值 大 于 设 定 RMSE 值 , 固 定 ww; 更 新 一 次 w ,记录 w 达到 最 优 
RMSE 时 的 值 。 同 理 可 得 最 优 we vw) ,最 后 归 一 化 处 理 三 个 参数 得 到 最 终 权 重 系 
数值 。 


13.3.2 评分 形成 


2015 年 Ho-Jong Lee 提出 了 专家 与 相似 度 结 合 的 算法 一 一 ESA (Expert 
Similarity Algorithm) ,在 预测 项 目 评分 时 ESA 算法 运用 经 典 的 评分 预测 式 (13-6) 
与 式 (13-12) 相 结合 ,进一步 提升 了 算法 的 推荐 准确 度 。 


De Di * Fux 


Ec 


Dui Iie (13-12) 
式 中 : fu TK B RKE. 
式 (13-12) 与 式 (13-7) 相 比 其 进步 在 于 专家 对 每 一 类 项 目的 评分 在 最 终 预 测 
评分 时 权重 不 同 。 本 章 在 预测 评分 时 改进 了 ESA 算法 采用 公式 (13-13) 来 求解 。 
> Gai — Foe) *sCusv) 
dm STR, x 之 od Ds usv) 
EG; v€E, 
RP: TR, 一 一 专家 可 信和 度 ; 
Ci; 一 一 当前 项 目 所 属 类 别 总 数 。 
此 类 算法 对 于 每 个 电影 类 别 的 专家 评分 ,根据 专家 在 此 类 别 评价 项 目 中 信任 
值 ,加 权 计 算 预 测评 分 ,有 效 避 免 了 出 现 不 同类 别 专家 对 项 目的 评分 同等 对 待 的 现 
象 ,充分 考虑 用 户 与 专家 之 间 的 相似 度 及 专家 信任 值 ,根据 专家 信任 值 赋予 不 同 专 
家 不 同 的 权重 ,在 一 定 程度 降低 了 预测 误差 。 
当 专 家 人 数 达 不 到 设 定 的 阔 值 时 ,近邻 算法 作为 补充 ,两 者 结合 发 挥 两 种 算法 
的 优点 ,两 者 结合 可 用 式 (13-14) 表 示 。 








«IR, (¥3-13) 














SD (ru 一 元 ) X susu) Sas 一 天) X TR. 
= ves, zE% 
Pui r,d-|aX 3 Ista) | +(1—a)xX SRD 
ves, zE% 
(13-14) 
式 中 : ru HP SH; 的 评分 ; 
当前 用 户 w 对 所 有 项 目的 平均 评分 ; 





s(usv) 一 一 用 户 u HP v 的 相似 度 ; 
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5 一 一 近邻 集合 ; 
专家 集合 。 

当 专 家 人 数 达 不 到 预先 设 定 的 阔 值 时 ,专家 对 项 目的 评分 预测 具有 一 定 的 偶 
然 性 ,此 时 的 专家 集合 不 能 全 面 代表 整体 对 项 目的 评分 。 本 章 将 此 时 的 专家 视 为 
是 某 种 意义 上 的 近邻 ,采用 a 作为 协调 因子 ,协调 专家 与 近邻 预测 评分 , 当 专 家 人 
数 为 零 时 ,此 时 式 (13-14) 退 化 为 近邻 算法 评分 预测 公式 ,如 式 (13-15) 所 示 。 


s(u,v)? 


a = —— pT (13-15) 


s(usv)? + TR? 
13.3.3 算法 描述 


算法 13-1 ”基于 社交 网 络 中 改进 专家 信任 的 协同 过 滤 推 荐 算法 (IETA) 
输入 : 评分 矩阵 及 及 项 目 类 别 和 矩阵 工 ,RMSE 阔 值 0. 98。 
输出 : 预测 矩阵 Rprea o 
步骤 1. 数据 预 处 理 一 一 随机 产生 zw owe ,res 。 
步骤 2: 利用 式 (13-3) 计 算 训练 集 中 用 户 之 间 的 相似 度 ,形成 相似 度 和 矩阵 。 
步骤 3: 根据 欲 评分 项 目 ; 和 项 目 类 别 和 矩阵 ,确定 项 目 ; 所 属 类 别 的 专家 。 
步骤 4: 根据 评分 偏差 修正 一 次 w ,rs ,rus ,直至 出 现 最 优 RMSE 值 。 
for i=1: Round 

根据 式 (13-12) 计 算 预 测 值 并 计算 RMSE 值 。 
if( 当 前 RMSE 值 之 设 定 RMSE ffi) 
修正 一 次 w sw «ws 的 值 ; 





/ 
Su 





else 
记录 当前 RMSE 值 及 对 应 的 可 调 参数 ; 

end 

i++; 


end 
return( 对 应 最 优 RMSE 值 的 可 调 参数 并 归 一 化 ) s 
步骤 5: 根据 步骤 3 寻找 到 的 专家 及 式 (13-11) , 当 可 选 专家 人 数 不 少 于 设 定 专家 阔 值 30 
时 ,利用 式 (13-13) 转 到 步骤 7. 否则 转 到 步骤 6。 
步骤 6: 根据 a 的 值 及 式 (13-15) 转 到 步骤 7。 
步骤 7: 产生 预测 矩阵 Rua. 
算法 结束 


13.4 实验 结果 与 分 析 


13.4.1 数据 集 


实验 数据 集 是 由 美国 Minnesota 大 学 GroupLens Research 实验 室 提供 
MovieLens 数据 集 , 该 数据 集 包 含 匿名 用 户 对 电影 的 评分 ,其 中 每 个 用 户 至 少 评价 
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了 其 中 20 部 电影 ,评分 值 的 范围 是 1 一 5,1 表示 最 低 评分 ,5 表示 最 高 评分 ,0 表示 
用 户 没有 评价 该 电影 。 除 了 评分 数据 外 ,该 数据 集中 包含 用 户 、 项 目的 属性 ,例如 
用 户 的 性 别 \ 年 龄 .职业 以 及 项 目的 名 称 、 上 映 年 份 、 风 格 流派 等 ,其 中 用 户 电影 的 
风格 流派 .评分 数据 是 本 章 实验 所 需要 的 。 


13.4.2 评估 标准 


评估 推荐 系统 预测 准确 性 的 标准 分 为 决策 精度 标准 和 统计 精度 标准 两 类 。 本 
章 采 取 了 对 特大 或 特 小 误差 反应 敏感 的 均 方 根 误 差 (RMSE)。 在 推荐 系统 中 
RMSE 作为 一 种 常用 度量 误差 标准 被 广泛 使 用 ,其 原理 是 通过 计算 用 户 关 于 项 目 
的 预测 值 与 真实 值 之 间 的 偏差 平方 和 与 用 户 个 数 n 比值 的 平方 根 ,如 式 (13-16) 


所 示 。 
= 
RMSE = [24 a (13-16) 
式 中 : zx 一 一 预测 值 ; 


xz 一 一 与 预测 值 对 应 的 真实 值 。 
13.4.3 实验 结果 与 分 析 


1. 相 似 度 实验 对 比 

为 了 得 到 较 佳 的 实验 结果 ,本 章 分 别 用 13. 2 节 中 余弦 相似 度 和 改进 的 余 
弦 相 似 度 计 算 方 法 计算 项 目 之 间 的 相似 度 , 如 图 13-1 所 示 为 两 种 相似 度 分 布 
对 比 图 。 从 图 13-1 可 以 看 出 ,余弦 相似 度 分 布 较为 均匀 ,改进 的 余弦 相似 度 
分 布 更 具 个 性 化 。 在 [0,.1] 范 围 内 ,运用 余弦 相似 度 得 到 的 相似 度 值 分 布 在 
[0.0,0.6], 平 均 达到 89.10% ,分 布 过 于 分 散 。 而 改进 的 余 汞 相似 度 得 到 的 
相似 度 值 主要 分 布 在 [0. 0,0. 4] ,平均 达到 80. 15 26 ,因为 通过 项 目的 评分 值 
减 去 用 户 评分 的 平均 值 .均衡 了 用 户 的 评分 尺度 不 一 问题 ,更 真实 地 反映 出 项 
目的 差异 特征 , 即 用 户 的 个 性 化 选择 。 所 以 ,根据 改进 的 余 强 相似 度 计算 方法 
可 以 得 到 较 高 质量 的 推荐 。 基 于 以 上 分 析 , 本章 采 用 改进 的 余弦 相似 度 计算 
方法 进行 度量 。 

2. 用 户 可 信 度 指标 分 布 与 分 析 

用 户 评价 可 信和 度 ,用户 专业 度 及 专家 评价 偏差 度 的 分 布 情况 如 图 13-2 所 示 。 
在 MovieLens 100k 数据 集中 ,用 户 可 信 度 主要 分 布 在 [0,0. 4], 其 中 56.4% 的 用 户 
评价 可 信 度 分 布 在 [0.0. 1] ,剩余 的 用 户 评价 可 信 度 在 其 他 区 间 都 有 分 布 ,说 明了 
少数 用 户 评 价 可 信 度 能 在 全 体 的 用 户 评价 可 信和 度 中 体现 个 性 化 的 特质 ; 同时 ,用 
户 专业 度 主要 分 布 在 [0,0. 3], 其 中 58. 21% 的 专家 分 布 在 [0,0. 2], 再 次 说 明了 只 
有 少数 用 户 对 某 些 类 别 的 项 目 比 较 专业 。 从 图 13-2 可 以 看 出 ,用 户 的 评价 偏差 度 
分 布 几乎 成 正 态 分 布 ,评价 偏差 度 分 布 在 [0. 2.0. 6] 的 用 户 所 占 比 例 为 77.6%, 说 
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图 13-1 两 种 相似 度 分 布 对 比 图 
明 大 多 数 用 户 的 评价 偏差 度 比 较 高 (评价 比较 接近 真实 评分 ), 以 上 足以 说 明 选 定 
专业 用 户 以 后 (专家 ) ,该 专家 对 项 目的 评分 信任 度 可 以 由 评价 可 信 度 .专业 度 LE 
价 偏差 度 三 种 指标 体现 。 
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图 13-2 评价 指标 分 布 图 


3. 专家 可 信 度 分 布 与 分 析 

MovieLens 100k 数据 集 由 19 种 流派 的 电影 组 成 ,图 13-3 为 专家 可 信和 度 分 布 
图 。 选 择 其 中 一 种 流派 的 电影 并 计算 该 流派 专家 的 信任 值 ,在 实验 开始 阶段 ,wi， 
wz ,ws 是 初始 化 值 ,所 以 专家 可 信和 度 值 比较 低 。 随 着 调整 次 数 的 增加 ,专家 信任 值 
从 100 000 次 调整 的 0. 12 提升 到 0. 63 共 经 过 了 400 000 次 的 调整 ,从 400 000 次 
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开始 专家 信任 值 稳定 在 [0. 63.0. 69], 此 时 归 一 化 后 得 出 wi. urs ws 值 分 别 为 
0. 31.0. 46,0. 23, 在 后 续 计 算 专 家 对 此 类 别 项 目 评分 时 ,可 以 直接 利用 此 训练 后 
的 系数 值 ; 对 于 不 同类 别 的 专家 信任 因子 系数 值 不 同 ,可 使 用 同样 方法 训练 
得 到 。 
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图 13-3 专家 可 信和 度 分 布 图 
4. 专家 近邻 融合 


专家 人 数 达 不 到 预先 设 定 的 冰 值 时 ,专家 近邻 算法 融合 对 比如 图 13-4 所 
示 。 未 融合 专家 与 近邻 算法 的 下 降 速 度 较 慢 ,原因 是 在 开始 阶段 每 个 类 别 的 
专家 可 选 人 数 在 达 不 到 预先 设 定 的 阔 值 时 ,专家 评价 项 目的 准确 性 有 待 进 一 
步 提 高 ,在 计算 此 类 项 目的 评分 时 把 近邻 算法 与 专家 算法 结合 ,一 方面 发 挥 了 
近邻 算法 的 快速 收敛 性 能 , 另 一 方面 把 没有 达到 符合 人 数 要 求 的 专家 与 近邻 
融合 补充 了 近邻 算法 的 不 确定 性 (近邻 可 能 从 来 没有 评价 过 此 类 项 目 ), 因 此 
本 章 在 专家 人 数 达 不 到 预先 设 定 的 国 值 时 选择 了 近邻 算法 与 专家 算法 的 
融合 。 

5. 专家 信任 算法 对 比 

本 节选 取 对 比 EA、ESA 与 本 章 提 出 的 IETA 算法 在 专家 数量 不 同情 况 下 的 
推荐 精确 度 。 实 验 以 RMSE 为 评估 标准 ,并 分 别 基 于 Movielens_100k 数据 集 和 
Movielens_1M 数据 集 进 行 。 

图 13-5 是 基于 MovieLens 100k 数据 集 所 绘 曲线 。 可 以 明显 看 出 ,在 实验 
开始 阶段 随 着 专家 人 数 的 增加 ,IETA 算法 的 RMSE 下 降 速 度 最 快 ; 随 着 专家 
人 数 的 增加 ,ESA 算法 的 RMSE 值 在 0. 88 左右 浮动 ,与 EA 算法 相 比 , 随 着 专 
家 专业 度 与 用 户 相 似 度 的 加 入 ,不 再 直接 使 用 专家 推荐 值 , 而 是 根据 专家 专业 
度 与 专家 与 用 户 的 相似 度 计算 推荐 结果 ,进一步 提升 了 推荐 结果 的 合理 性 。 
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图 13-4 专家 近邻 算法 融合 对 比 图 
IETA 算法 把 专家 信任 与 用 户 相 似 度 加 入 到 ESA 算法 中 ,RMSE 值 在 专家 人 
数 达 到 50 人 时 达到 最 小 值 0. 875 ,在 专家 人 数 进一步 增加 时 该 算法 的 RMSE 
值 趋 于 稳定 。 以 上 实验 对 比 表明 ,IETA 算法 在 推荐 准确 性 及 合理 性 上 均 有 
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图 13-5 基于 MovieLens 100k 数据 集 


图 13-6 为 基于 MovieLens 1M 数据 集 , 表 明 在 实验 数据 集 为 1M 时 ,IETA 
算法 在 训练 集 内 的 训练 会 更 加 充分 ,EA 与 ESA 算法 的 计算 结果 没有 随 着 数据 
量 的 增加 而 有 所 改变 ,说 明 其 扩展 性 表现 不 佳 。 但 本 章 提出 的 IETA 算法 的 
RMSE 提升 了 5% ,对比 结果 进一步 说 明了 本 章 提出 的 算法 具有 更 好 的 适应 性 和 
扩展 性 。 
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图 13-6 ”基于 MovieLens 1M 数据 集 





本 章 小 结 


本 章 研究 了 专家 算法 的 产生 与 改进 ,IETA 算法 在 ESA 算法 和 EA 算法 的 基 
础 上 加 入 专家 信任 度 。 实 验 表明 ,改进 后 的 专家 信任 协同 过 滤 推 荐 算法 不 仅 有 效 
提高 了 推荐 系统 的 推荐 精度 ,而 且 随 着 实验 数据 集 的 增 大 展现 出 了 良好 的 扩展 性 。 
但 是 ,在 算法 的 改进 过 程 中 专家 信任 指标 的 融合 还 不 够 完善 。 所 以 ,下 一 步 工 作 的 
重心 将 放 在 信任 的 动态 调整 及 建立 有 效 的 信任 传递 机 制 ,使 信任 度量 更 加 合理 。 
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近年 来 ,个 性 化 推荐 系统 给 人 们 的 生活 和 工作 带 来 了 很 多 便捷 。 但 
是 随 着 网 络 中 电影 信息 的 爆炸 式 增长 ,简单 的 模型 搜索 可 能 难以 满足 观 
影 者 的 需求 ,同时 尽管 电影 推荐 技术 越 来 越 得 到 广泛 的 应 用 及 普及 ,但 
是 很 多 电影 系统 并 没有 针对 观 影 者 的 历史 行为 进行 分 析 与 发 据 。 另 外 ， 
在 海量 数据 情况 下 单机 版 的 算法 运行 已 经 不 能 满足 实际 的 业务 需求 , 同 
时 传统 的 做 法 仅仅 是 存储 到 数据 库 , 不 能 满足 随时 取 用 的 目的 。 

针对 上 述 问题 ,为 满足 用 户 和 电影 系统 的 迫切 需要 ,重视 用 户 的 个 
体 需 求 , 本 系统 运用 当下 热门 的 概率 矩阵 分 解 技术 并 结合 社交 网 络 中 的 
信任 传播 机 制 来 改进 传统 的 概率 矩阵 分 解 模 型 ; 在 此 基础 上 ,结合 
Spark 集群 进行 分 布 式 计算 、HBase 集群 构建 电影 的 存储 来 实现 改进 的 
两 种 概率 矩阵 分 解 模 型 ,进一步 结合 JavaWeb 做 电影 的 展示 ,致力 于 构 
建 满足 不 同 观 影 者 的 偏好 各 异 的 界面 友好 的 个 性 化 电影 推荐 系统 。 

构建 的 推荐 系统 根据 观 影 者 的 历史 行为 数据 例如 上 点击、 购买 和 收藏 
等 去 挖 据 用 户 的 偏好 信息 ,进而 为 其 推送 感 兴趣 的 电影 。 另 外 ,构建 的 
推荐 系统 通过 联系 观 影 者 和 电影 一 方面 帮助 观 影 者 发 现 自己 真正 想 看 
的 电影 , 另 一 方面 将 电影 展现 在 对 它 感 兴趣 的 观 影 者 面前 ,从 而 实现 观 
影 者 和 电影 系统 的 双赢 。 个 性 化 推荐 系统 的 融入 显著 提高 了 观 影 者 的 
满意 度 和 对 电影 系统 的 黏 性 ,进而 为 电影 本 身 带 来 了 可 观 的 经 济 效益 和 
社会 影响 力 。 


电影 推荐 原型 系统 





14.1 引言 


本 系统 用 到 了 目前 比较 前 沿 的 基于 概率 矩阵 分 解 和 社交 网 络 的 推荐 技术 ,与 
传统 的 基于 内 容 关 键 的 电影 系统 有 着 很 大 的 不 同 。 概 率 矩 阵 分 解 模 型 相对 于 传统 
的 基于 邻 域 的 模型 具有 全 局 的 目标 函数 因而 推荐 精度 较 高 ; 同时 ,由 于 潜在 因子 
数 往往 小 于 系统 中 的 用 户 数 和 项 目 数 ,算法 离线 计算 的 空间 复杂 度 低 , 这 在 当今 大 
数据 的 环境 下 具有 很 强 的 实用 价值 。 

另外 ,在 当今 大 数据 环境 下 ,用 户 和 项 目的 数量 十 分 巨大 ,同时 用 户 和 项 目的 
数量 每 天 都 在 持续 增加 ,如 每 次 都 重新 计算 势必 会 增加 计算 的 任务 量 ,因此 搭建 了 
基于 Spark 和 HBase 的 集群 框架 ,并 基于 Spark 和 HBase 实现 两 种 改进 的 概率 和 矩 
阵 分 解 算法 ,有 利于 推荐 系统 在 工业 界 的 发 展 。 


14.2 主要 功能 


如 图 14-1 所 示 是 功能 架构 设计 图 ,该 系统 主要 是 在 用 户 查找 自己 想 看 的 电影 
时 使 用 ,功能 包括 简介 模块 、 建 模 一 模块 、 建 模 二 模块 .推荐 模块 .统计 分 析 模 块 和 
关于 我 们 模块 等 内 容 。 









































简介 建 模 一 建 模 二 | 推荐 统计 分 析 | | 关于 我 们 



































图 14-1 系统 功能 架构 设计 图 
建 模 一 模块 和 建 模 二 模块 分 别 对 应 本 系统 的 两 种 改进 的 概率 和 矩阵 分 解 算法 ， 
建 模 之 时 交互 输入 算法 需要 的 参数 , 建 模 后 在 推荐 模块 得 到 预测 的 推荐 结果 ,统计 
分 析 主 要 对 数据 集 的 内 容 关键 字 提 取 以 图 表 形 式 直观 表达 ,最 后 的 关于 我 们 模块 
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是 本 团队 的 一 些 概 况 。 
14.3 关键 技术 


14.3.1 概率 矩阵 分 解 模 型 


概率 矩阵 分 解 是 矩阵 分 解 模型 中 的 典型 代表 ,如 图 14-2 所 示 是 概率 矩阵 分 解 
的 概率 图 模型 ,该 模型 在 Netflix 等 推荐 竞赛 上 大 放 异 彩 ,吸引 了 国内 外 学 者 的 广 
IRIE. 


























广 12…M | 








oR 
图 14-2 ”概率 矩阵 分 解 的 概率 图 模型 


概率 矩阵 分 解 的 基本 思想 是 在 矩阵 分 解 的 基础 上 引入 概率 的 思想 ,假设 用 户 
和 商品 的 特征 向 量 矩 阵 都 符合 高 斯 分 布 , 基 于 这 个 假设 ,用 户 对 商品 的 喜好 程度 就 
是 一 系列 概率 的 组 合 问题 ,利用 贝 叶 斯 推导 ,可 得 用 户 和 物品 的 隐 式 特征 的 后 验 概 
率 , 结 合 最 大 似 然 估计 能 得 到 最 终 的 目标 函数 。 概 率 矩 阵 分 解 模型 (与 其 他 矩阵 分 
解 算法 比较 ) 能 较 好 地 适应 大 规模 数据 集 , 时 间 复 杂 度 随 观测 数据 增长 呈 线 性 增 
长 ,在 数据 非常 稀 朴 的 情况 下 有 更 好 的 预测 性 能 。 


14.3.2 社交 网 络 正 则 化 


出 于 现实 中 这 样 的 考虑 ,一 个 用 户 被 信任 的 次 数 越 多 ,那么 越 值得 被 信 
任 ; 一 个 用 户 信任 的 人 越 多 ,那么 其 对 陌生 人 也 就 更 倾向 于 信任 ,但 是 信任 程 
度 会 较 低 。 更 进一步 地 说 ,如 果 us 信任 wa, 那么 这 两 个 用 户 的 用 户 潜 在 因子 
空间 也 要 很 相似 ,相似 程度 取决 于 wu; 对 us 的 信任 程度 ,通过 最 小 化 用 户 us 和 
ua 的 欧 氏 距离 ,并 将 其 信任 值 作为 非 线 性 的 约束 项 来 约束 传统 的 概率 矩阵 
分 解 。 
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如 图 14-3 所 示 为 系统 推荐 原理 图 ,根据 用 户 的 潜在 需求 ,首先 找到 用 户 的 描 
述 文件 ,在 此 基础 上 提取 用 户 的 深层 次 特征 ,接着 结合 用 户 相关 数据 项 目 相关 信 
息 以 及 用 户 和 项 目的 交互 状态 形成 待 推荐 的 项 目 列表 ,最 终 根 据 推荐 原则 获得 最 
优 的 推荐 项 目 。 
































Step2 
Stepl SHE Step4 
MRTA Ll m " n net 
e | 用 户 特 征 息 st 
用 户 描述 文件 p 最 优 项 目的 推荐 
项 目 推荐 策略 的 定制 形成 候选 项 目 
图 14-3 系统 推荐 原理 图 

14.4 集群 搭建 


14.4.1 集群 软 硬 件 环境 


戴尔 笔记 本 一 台 , 内 存 12G, 主 频 2.7GHz, Windows 10 操作 系统 ,然后 安装 
VMware Workstation, ,同时 在 虚拟 机 中 安装 4 个 节点 ,节点 操作 系统 是 CentOS6, 
主 节 点 内 存 是 2G ,其 他 节点 的 内 存 是 1G。 根 据 硬件 环境 规划 各 个 节点 的 任务 ,如 
表 14-1 所 列 为 节点 规划 ,每 行 标题 表示 进程 ,每 列 标题 表示 节点 名 ,有 对 号 的 表示 
该 节点 具有 该 进程 ,不 填 表示 没有 。 


表 14-1 节点 规划 





CentOSMaster StandByNameNode Slavel Slave2 
NN v v 
DN v v v 
JNs v v v 
Zk v v v 
ZKFC v v 
Spark J vV 


其 中 NN 通过 命名 空间 的 镜像 文件 和 编辑 日 志文 件 来 管理 文件 系统 的 命名 空 
间 ,主要 用 来 接收 其 他 节点 的 心跳 数据 来 确定 各 个 节点 的 存活 情况 ,同时 也 记录 着 
每 个 文件 中 各 个 块 所 在 的 数据 节点 信息 。DN 是 Hadoop 文件 系统 的 工作 节点 ,其 
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根据 客户 端 或 者 是 NN 的 调度 来 存储 和 检索 数据 ,并 且 定 期 向 NN 发 送 所 存储 的 
块 的 列表 。JNs 的 存在 是 为 了 同步 ActiveNameNode 和 StandByNameNode 的 信 
息 , 当 Active 状态 的 NN 的 命名 空间 有 任何 修改 时 ,会 通过 JNs 进程 通知 其 他 节 
点 ,同时 Standby 状态 的 节点 会 一 直 监 控 edit log 的 变化 ,进而 通过 edit log 把 主 节 
点 的 更 改 同 步 到 其 他 节点 。Zookeeper 通过 原子 广播 来 保证 事务 的 一 致 性 ,这 样 
Client 不 论 连接 到 哪个 Server, 展 示 给 它 都 是 同一 个 视图 。ZKFC 的 HealthMonitor 
主要 是 监控 NN 主机 上 的 磁盘 还 是 否 可 用 。 如 表 14-2 所 列 为 集群 版 本 信息 。 


表 14-2 集群 版 本 信息 





软件 版 本 号 
Jdk 1.8.0_19 
Zookeeper 3.4.0 
Hadoop 2.6.0 
Scala 2.11.0 
Spark 2.0.2 


14.4.2 Spark 集群 


Spark 集群 是 基于 内 存 的 /高 可 靠 、 高 性 能 的 开源 分 布 式 并 行 计算 框 架 ,可 被 
用 来 构建 低 延 迟 的 大 规模 数据 分 析 应 用 程序 ,同时 相对 于 Hadoop 集群 来 说 Spark 
集群 具有 如 下 优点 : 运行 速度 快 ,简单 易 用 和 通用 性 强 。 

如 图 14-4 所 示 是 搭建 好 的 Spark 集群 。 集 群 主要 包括 集群 地 址 (URL) V if X 
的 节点 数目 (Alive Workers)、 集 群 内 存 使 用 情况 (Memory in use) 和 应 用 状况 
(Application) 等 信息 。 


soot as: Spark Master at spark://CentOSMaster:7077 





图 14-4 搭建 好 的 Spark 集群 


14.4.3 HBase 集群 


HBase 集群 是 基于 Hadoop 的 分 布 式 . 可 扩展 的 非 关 系 型 大 数据 存储 系统 。 
和 HDFS 不 同 的 是 ,HBase 可 以 存储 上 亿 行 百 万 维 的 数据 。 另 外 ,集群 支持 块 查 


询 和 布 隆 过 滤器 之 类 的 随机 查询 ,方便 随机 、 实 时 地 读 取 数据 ,同时 易于 用 Java 语 
言 进行 编写 。 本 系统 将 推荐 结果 存储 到 HBase 集群 ,利于 以 后 增 量 计算 方面 的 
研究 。 

如 图 14-5 所 示 是 本 章 配置 好 的 HBase 集群 ,从 图 中 可 以 看 出 HBase 集群 的 
主 节点 是 CentOSMaster. 集群 包括 三 个 节点 ,分 别 是 Slavel、Slave2 和 
StandByNameNode, 图 中 详细 显示 了 各 节点 服务 器 名 称 (ServerName) ,集群 启动 
ff fa] (Start time) ,版 本 号 (Version) .每 秒 的 请 求 数量 (Requests Per Second) 等 信 
息 和 区 域 数目 (Num Regions) 之 类 的 信息 ,方便 用 户 实时 查看 集群 状态 。 


HEH e mews uam upie wom teat Heep 





Master centoSMaster 

Region Servers 
Memory Requests  Surees Compacons 

‘ServerName ‘Start time Version Requests Per Second Num. Regions. 
lavet,16020,1488529306753 Fri Mar 03 16:21:46 HKT 2017 124 0 2 

‘slave2, 16020, 1488529309000 Fri Mar 03 16:21:49 HKT 2017 124 0 1 
standbynamenode .16020 1488529311644 Fri Mar 03 162151HKT 2017 124 0 2 


图 14-5 搭建 好 的 HBase 集群 


14.5 系统 特点 


本 系统 主要 基于 Spark 和 HBase 集群 进行 开发 ,主要 是 利用 改进 的 概率 矩阵 
分 解 技术 为 主 进行 电影 推荐 ,以 适应 信息 过 载 时 代 的 需求 。 

具体 特点 阐述 如 下 : 

(1) 提出 一 种 基于 交 蔡 最 小 二 乘 的 改进 概率 矩阵 分 解 算 法 。 首 先 将 用 户 项 目 
的 偏 置信 息 融 和 人 到 传统 的 概率 矩阵 分 解 算 法 中 ; 其 次 为 了 提升 推荐 精度 ,将 训练 
得 到 的 用 户 项 目 潜在 因子 向 量 作为 交替 最 小 二 乘 的 初始 值 ,进而 得 到 用 户 项 目 潜 
在 因子 矩阵 。 在 此 基础 上 进行 预测 。 

(2) 提出 一 种 社交 网 络 改进 的 概率 矩阵 分 解 算法 。 首 先 借鉴 用 户 普遍 的 认 知 
心理 ,将 信任 作为 实体 决策 选择 时 的 一 个 主观 概念 ,结合 客观 存在 的 评分 ,共同 评 
价 用 户 之 间 的 偏好 关系 ,然后 将 用 户 偏 置信 息 和 用 户 间 的 信任 关系 融入 到 传统 的 
概率 矩阵 分 解 中 ,通过 随机 梯度 下 降 来 获取 最 优 解 ,从 而 获得 对 原始 用 户 一 项 目 评 
分 矩阵 中 缺失 的 评分 值 的 预测 。 

(3) 该 项 目 结合 主要 基于 Spark 集群 和 HBase 集群 实现 ,该 原型 系统 为 以 后 
的 电影 系统 提供 了 开发 框架 ,便于 系统 融合 自身 的 算法 模型 ,同时 也 为 并 行 化 电影 
推荐 系统 提供 平台 支撑 ,有 利于 推荐 系统 在 工业 界 的 应 用 。 
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14.6 ”用户 使 用 说 明 


14.6.1 系统 简介 界面 


如 图 14-6 所 示 是 系统 简介 建 模 ,主要 介绍 了 该 系统 的 功能 模块 ,包括 基于 
Spark 集群 构建 矩阵 分 解 模型 .在线 查询 与 在 线 推荐 模型 .推荐 结果 存 和 人 HBase R 
群 以 及 数据 集 的 统计 分 析 。 

基于 Spark MLlib 的 电影 推荐 原型 系统 
简介 B 建 模 二 推荐。 统 寺 分 析 。 关于 我 们 
基于 Spark MUib 的 矩阵 分 解 推荐 ， 通 过 改动 ALS 的 源码 对 ratingsdat 文 件 进行 建 模 ， 读 取 模 型 的 用 户 和 项 目 潜在 因子 向 量 数据 来 实现 推荐 。 
原型 系统 包含 的 主要 功 角 xD 下 : 
(1) 基于 Spark 集 群 建立 失 阵 分 解 推荐 模型 ; 
( 2 ) 在 线 查 询 与 在 线 推荐 在 线 推荐 ; 
( 3 ) 推荐 结果 存 入 HBase 集 群 
(A) 数据 集 的 统计 分 析 。 


图 14-6 系统 简介 模块 


14.6.2 建 模 一 和 建 模 二 界面 


主要 输入 数据 来 源 、. 训 练 比重 ,矩阵 分 解 秩 . 正 则 系数 和 训练 次 数 ,图 14-7 是 
建 模 一 模块 ,图 14-8 是 建 模 二 模块 ,相对 于 建 模 一 模块 主要 多 了 社交 系数 。 


基于 Spark MLlib 的 电影 推荐 原型 系统 
简介 ， 建 模 一 建 模 二 He ”统计 分 析 ”关于 我 们 


输入 或 选择 参数 ， 提 交 Spark 任 务 ， 进 行 IPMF 建 模 : 























输入 路 径 ; hdfs://1 92. 16858 180.8020/MovieLens/ratings dat 

asem: | 90% 

wxowm: (e J E 
Emm: [oi 

循环 次 数 : 8 











14-7 RRR 


ME GRAEHUURS e 1% 
基于 Spark MLlib 的 电影 推荐 原型 系统 
简介 ” 建 模 一 建 模 二 推荐 Sito ATR 


输入 或 先 择 参数 ， 提 交 Spark 任 务 ， 进 行 RBPT 建 模 : 
































输入 路 径 : hdfs://192.168.58.180:8020/MovieLens/ratings.dat 
VEE : 90% 

TERESA : y 8 . 
正则 系数 : 0.065 
循环 次 数 : 8 H 
社交 系数 : 01 











图 14-8 建 模 二 模块 


14.6.3 集群 界面 


如 图 14-9 所 示 为 Spark 运行 动态 ,图 中 主要 包括 运行 过 程 中 的 Exectors 和 
Jobs 的 开始 时 间 和 结束 时 间 ; 运行 后 在 ResourceManager 上 显示 的 状态 记录 信 
息 。 如 图 14-10 所 示 为 ResourceManager 运行 记录 ,图 中 主要 包括 运行 任务 的 编 
号 (ID) .算法 名 (Name) .运行 平台 (Application Type) 和 是 否 运行 成 功 等 信息 ; 运 
行 后 的 推荐 结果 存储 在 HBase 集群 中 。 如 图 14-11 所 示 为 运行 后 的 HBase 集群 ， 
用 户 表 中 的 前 两 行 是 电影 信息 (t_movies) 和 评分 信息 (t_ratings) ,后 两 行 分 别 是 运 
行 后 的 推荐 结果 (t_recommend_by_IPMF 和 t_recommend_by_RBPT)。 


| 
Bl Removes mint ee 
E i | 
IB Sac 
rae m 
m umng T | 
m | 
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Cluster Metrics 
Apps Apps Apps Apps Containers Memory Memory Memory VCores VCores VCores Active Decommissioned Lost Unhealthy Rebooted 
Submitted Pending Running Completed Running ^ Used Total Reserved Used Total Reserved Nodes Nodes Nodes Nodes ^ Nodes 
[2 o 0 2 o 0B 2468 OB o za o 3 o o o o | 
User Metrics for dr.who 
Apps Apps Apps ‘Apps Containers Containers Containers Memory Memory | Memory Vcores — VCores | VCores 
Submitted Pending ^ Running Completed Running Pending Reserved Used Pending Reseved Used Pending Reserved 
lo o o 2 D o o o8 o8 o8 o o o | 
EE 
= » | User | Name Appian Queue s. Stig. | FinishTime State ©- Finaistatus -|= Progress ©- Tacting — Biscktisted 
application 1488780436319 0002 hxsyl RBPT SPARK Toothusy| Mon 06 Mon.06 FINISHED SUCCEEDED ED History — N/A 
Mar2017 — Mar 2017 
063255 — 064245 
GMT GMT 
application 1488780436319 0001 hxsyl| IPMF SPARK roothxsy Mon 06 Mon, 06 FINISHED SUCCEEDED (II History N/A 
‘Mar 2017 — Mar2017 
061640 0622-22 
GMT GMT 
图 14-10 ResourceManager 运行 记录 
Tables 


System Tables Snapshots 
A tabe(s) In set. [Detais 


Namespace Table Name Online Regions Offline Regions Failed Regions Split Regions Other Regions Description 

default movies 1 o o 0 o “Limovies’ [NAME => ‘information’, VERSIONS => '1}) 

default L ratings 1 o 0 0 o "L ratings’, (NAME => information’, VERSIONS => 1) 

dofault Lrecommend by IPMF 1 o 0 0 o "Lrecommond by IPMF, (NAME => information, VERSIONS =>") 
default Lrecommend by RBPT 4 o 0 o o "Lrecommend y. RBPT. (NAME => Information, VERSIONS => 1) 


图 14-11 运行 后 的 HBase 集群 


14.6.4 看 过 的 电影 界面 


如 图 14-12 所 示 是 用 户 看 过 的 电影 信息 图 ,首先 输入 用 户 ID, 然 后 点 击 “ 查 
询 ”, 在 下 方 显示 用 户 评分 过 的 电影 信息 条 目 数 ,在 其 下 方 以 列表 形式 显示 用 户 看 
过 的 电影 信息 ,主要 内 容 包 括 电影 编 号 .电影 名 称 、 电 影 所属 的 类 别 标签 和 评分 
信息 。 
基于 Spark MLIib 的 电影 推荐 原型 系统 


简介 。 建 模 一 建 模 二 推荐 统计 分 析 ”关于 我 们 


RPD: 1 四 推荐 人 数 3 +) [ee a 图 


Movied ”电影 名 标签 评分 
1 Toy Story (1995) Animation|Children's|Comedy 50 
1022 Cinderella (1950) Animation|Children's|Musical 50 
1028 Mary Poppins (1964) Children's|Comedy|Musical 5.0 
1029 Dumbo (1941) Animation|Children's|Musical 5.0 
1035 ‘Sound of Music, The (1965) Musical 5.0 
1097 ET. the Extra-Terrestrial (1982) Children's|Drama|Fantasy|Sci-Fi 40 
1193 ‘One Flew Over the Cuckoo's Nest (1975) Drama 50 
1197 Princess Bride. The (1987) ActionlAdventurelComedvlRomance 30 


图 14-12 用 户 看 过 的 电影 信息 图 
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14.6.5 推荐 电影 界面 


选择 IPMF 推荐 (对 应 建 模 一 ) 得 到 如 图 14-13 所 示 的 建 模 一 IPMF 模型 推荐 
结果 ,选择 RBPT 推荐 (对 应 建 模 二 ) 得 到 如 图 14-14 所 示 的 建 模 二 RBPT 模型 推 
荐 结果 ,最 终 推荐 结果 按 推荐 分 按 递减 次 序 排列 。 


基于 Spark MLIib 的 电影 推荐 原型 系统 
简介 ” 建 模 一 建 模 二 推荐 ”统计 分 析 。 关于 我 们 


输入 用 户 id， 进 行 推荐 或 查询 用 户 看 过 的 电影 


BP: [4 | EJ 推荐 人 数 3 B IPMF 








数据 如 下 : 
Movield 电影 名 标签 推荐 分 
572 Foreign Student (1994) Drama 5.532816 
2760 Gambler, The (A J????0s) (1997) Drama 5.056941 
3233 Smashing Time (1967) Comedy 4.9441557 
图 14-13 BEBE — IPMF 推荐 结果 
基于 Spark MLIib 的 电影 推荐 原型 系统 
简介  HHR— 建 模 二 推荐 统计 分 析 。 关于 我 们 
ARP id ， 进 行 推荐 或 查询 用 户 看 过 的 电影 
APD: 1 四 推荐 个 数 : 3 u RBPT * EI 
数据 如 下 : 
Movield AEZ 标签 推荐 分 
2396 Shakespeare in Love (1998) Comedy|Romance 5.36344737 
2858 American Beauty (1999) Comedy|Drama 5.34206083 
1196 Star Wars: Episode V - The Empire Strikes Back (1980) Action|Adventure|Drama|Sci-Fi| War 5,31220287 


图 14-14 建 模 二 RBPT 推荐 结果 


14.6.6 统计 分 析 界 面 


如 图 14-15 所 示 是 统计 分 析 界 面 ,从 图 中 能 得 到 不 同年 龄 段 的 观 影 者 所 看 过 
的 电影 数目 信息 ,以 便于 后 期 研究 。 
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基于 Spark MLIib 的 电影 推荐 原型 系统 


不 同年 龄 段 看 电影 的 次 数 


40000 $ 





30,000 
31-40 
次 数 : 23,775 


20000 


10,000 





1-10 11-20 21-30 31-40 41-50 51-60 61-70 >70 


图 14-15 统计 分 析 界 面 
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